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~、 蕊 ~ 上 下、 全 > 也 
谷歌 面试 准备 完全 指南 
为 什么 我 编写 本 指南 凭借 在 这 个 行业 的 多 年 经 验 ， 我 想 给 你 现存 的 ， 最 详细 的 谷歌 面试 准备 
指南 。 


自从 Gaino 成 立 以 来 ， 我 困扰 于 如 何 为 Google，Facebook， 亚 马 逊 等 公司 准备 面试 。 我 很 
快意 识 到 ， 大 多 数 人 对 谷歌 面试 准备 (对 其 他 公司 ) 没有 什么 了 解 ， 甚 至 许多 人 都 把 注意 力 
放 在 了 错误 的 事情 上 。 


谷歌 面试 专门 侧重 于 数据 结构 /算法 ， 系 统 设计 ， 测 试 等 领域 。 有 了 正确 的 方法 和 资源 ， 你 可 
以 显 着 提高 聘用 的 机 会 。 而 且 ， 你 将 从 你 应 该 准备 的 东西 中 受益 。 


因此 ， 本 资源 包含 了 你 需要 了 解 的 关于 Google 面试 准备 的 所 有 信息 ， 包 括 可 接触 的 ， 可 立即 
操作 的 事情 ， 你 可 以 在 阅读 后 立即 采取 行动 。 


这 个 指南 写 给 谁 ? 


如 果 你 正在 寻找 Google，Facebook，Uber，Airbnb 等 顶级 公司 的 软件 工程 师 职 位 ， 这 是 写 
给 你 的 。 如 果 你 在 网 上 被 大 量 的 编程 问题 困扰 ， 那 么 这 个 指南 是 为 你 准备 的 ， 因 为 我 会 帮 你 
算 选 杂乱 的 东西 。 


虽然 实习 生 ， 应 届 生 和 经 验 丰 富 的 工程 师 有 不 同 的 标准 ， 但 Google 面试 准备 的 基本 思路 是 一 
致 的 。 例 如 ， 无 论 你 经 验 丰富 或 缺乏 经 验 ， 你 都 可 以 预期 解决 编程 问题 。 在 后 面 的 章节 中 ， 
我 还 将 为 每 个 类 别提 供 实用 技巧 。 


>> 日 、 = 
它 是 否 适 用 于 其 他 公司 ? 
Google 无 疑 拥有 最 标准 的 面试 流程 ， 大 多 数 科技 公司 也 借用 了 类 似 的 想法 。 因 此 ， 本 指南 适 
用 于 大 多 数 顶 级 公司 ， 如 Facebook，Uber，Dropbox，Amazon，Airbnb 等 等 。 


当然 ， 不 同 的 公司 有 自己 的 重点 ， 如 文化 适应 。 但 是 像 数 据 结 构 / 算 法 和 系统 设计 这 样 的 最 重 
要 和 基本 的 要 求 在 任何 地 方 都 是 一 样 的 (尽管 门槛 可 能 不 同 ) 。 


一 些小 创业 公司 可 能 拥有 完全 独特 的 面试 过 程 ， 这 个 资源 不 会 涉及 它 。 例 如 ， 一 些 公司 会 要 
求 候选 人 在 周末 完成 一 个 项 目 。 


如 何 使 用 本 指南 ? 


我 会 建议 阅读 所 有 东西 。 为 了 节省 你 的 时 间 ， 我 尽 了 最 大 的 努力 把 所 有 事情 都 变 成 可 以 立即 
采取 行动 的 事情 ， 以 便 你 准确 知道 要 做 什么 。 


另外 ， 这 个 资源 假设 你 没有 太 多 的 时 间 ， 因 为 很 多 人 只 能 在 下 班 时 间 做 准备 ， 但 是 我 总 是 相 
言 ， 如 果 你 专注 于 正确 的 事情 ， 你 会 实现 完美 的 工作 /生活 平衡 。 

即使 你 对 这 个 话题 有 些 熟 悉 ， 但 是 我 敢 青 定 ， 你 会 发 现 一 些 新 的 武器 ， 可 以 加 入 到 你 的 武器 
库 中 ， 因 为 在 过 去 的 几 年 中 情况 已 经 发 生 了 很 大 的 变化 。 


3 人 写 ~、、 
一 、 获 得 面试 机 会 
原文 : Chapter 1: Get an Interview with Google 
译 者 : 飞龙 
自豪 地 采用 谷歌 翻译 


谷歌 每 年 收 到 100 多 万 份 简历 ， 只 有 少数 人 有 面试 的 机 会 。 换 句 话说 ， 大 多 数 人 没有 失败 于 
谷歌 的 面试 ， 而 是 获得 面试 机 会 。 


在 谈论 谷歌 面试 准备 时 ， 大 多 数 人 都 会 关注 编程 问题 ， 并 尝试 在 Leetcode 上 练习 每 一 个 问 
题 。 但 是 ， 其 中 超过 90% 的 人 没有 测试 它 的 机 会 。 


即使 你 没有 做 好 充分 的 准备 ， 也 意味 着 你 还 有 面试 机 会 。 在 本 章 中 ， 我 想 对 如 何 获得 谷歌 的 
面试 机 会 提供 许多 实用 的 建议 。 大 多 数 技巧 也 适用 于 其 他 公司 。 


时 间 会 有 很 大 的 变化 


我 们 不 得 不 承认 ， 申 请 谷歌 的 时 间 可 能 会 有 很 大 的 变化 。 到 了 2014 年 左右 ， 这 对 硅谷 的 科 

技 公 司 来 说 是 最 好 的 时 机 。 每 天 都 有 新 的 创业 公司 诞生 ， 每 个 大 公司 都 想 吸引 工程 师 。 似乎 
有 巨大 的 机 会 。 

结果 是 ， 你 比 以 往 任 何 时 候 都 更 有 可 能 获得 谷歌 的 面试 机 会 (与 大 多 数 其 他 公司 一 样 ) 。 从 
Gainlo 2016 年 下 半年 的 用 户 报 告 中 ， 大 多 数 人 没有 收 到 谷歌 招聘 人 员 的 答复 。 优 和 步 是 另 一 

个 很 好 的 例子 ， 最 好 的 时 间 是 在 2015 年 左右 。 

你 可 能 无 法 控制 何 时 申请 谷歌 ， 但 知道 时 间 会 有 很 大 的 变化 的 事实 ， 可 以 让 你 在 没有 得 到 招 

聘 人 员 答 复 的 情况 下 更 加 无 忧 无 虐 。 另外 ， 不 同 的 公司 可 能 有 不 同 的 安排 。 你 应 该 时 刻 随机 


、 十 上 姓 日 bp 
推荐 是 关键 
曾 多 次 强调 这 一 点 。 虽 然 我 们 有 很 多 很 棒 的 工具 ， 比 如 Linkedin 和 在 线 编程 平台 ， 但 推荐 


仍然 是 第 一 渠道 。 


就 我 个 人 而 言 ， 我 感到 很 难过 ， 因 为 这 意味 着 招聘 仍然 采用 非常 古老 的 方式 。 你 的 工作 机 会 
仍然 取决 于 你 的 关系 ， 而 不 是 你 的 技能 。 


因此 ， 如 果 你 正在 准备 谷歌 面试 ， 最 佳 方式 是 让 你 的 谷歌 员工 朋友 推荐 你 。 说 起 来 容易 ， 但 
很 难 做 到 。 大 多 数 人 不 够 积极 ， 让 我 在 这 里 解释 一 下 。 


So 你 的 谷歌 员工 朋友 不 需要 成 为 你 的 好 朋友 。 如 果 他 对 你 的 工作 有 第 一 手 的 了 解 ， 那 很 
了 于， 但 不 是 必须 的 。 


其 次 ， 联 系 你 的 二 度 人 脉 。 如 果 你 的 朋友 是 前 谷歌 员工 ， 请 问 他 是 否 可 以 找 人 来 推荐 你 。 如 
果 你 的 毕业 学 校 的 人 在 谷歌 工作 ， 联 系 他 。 Linkedln 允许 你 轻松 地 检查 你 的 二 度 人 脉 。 


黄金 法 则 是 不 要 害怕 。 如 果 你 被 拒绝 也 并 不 可 耻 ， 实 际 上 ， 大 多 数 人 都 有 求助 于 你 的 动机 。 
研究 表明 ， 大 多 数 人 通过 较 弱 的 关系 来 获得 工作 。 


你 有 吸引 人 的 简历 吗 ? 


好 的 简历 不 一 定 会 让 你 有 面试 机 会 ， 但 不 好 的 简历 会 绝对 让 你 被 拒绝 。 如 果 你 所 需要 的 只 是 
几 个 小 时 来 探 亮 你 的 简历 ， 这 可 能 会 给 你 一 些 好 处 ， 但 是 我 看 不 出 有 什么 理由 你 不 应 该 这 样 
做 。 


简历 中 最 重要 的 两 个 因素 是 简洁 易 懂 。 


作为 一 个 面试 官 /招聘 人 员 ， 当 我 收 到 一 份 10 页 的 简历 时 ， 我 的 第 一 反应 就 是 忽略 它 。 招 聘 
者 有 数 百 和 数 千 个 简历 可 供 阅 读 ， 没 有 人 有 时 间 阅 读 一 本 “ 书 ”*。 让 我 们 简单 一 点 ， 你 的 简历 应 
该 是 一 页 纸 。 请 记 住 ， 内 容 太 多 意味 着 ， 你 想 突出 显示 的 内 容 更 可 能 被 忽略 。 


另外 ， 你 应 该 在 细节 和 简单 性 之 间 找 到 一 个 很 好 的 平衡 点 。 但 往往 不 是 这 样 ， 我 看 到 两 个 极 
端的 情况 。 一 个 是 简历 列 出 了 每 个 项 目的 各 种 技术 细节 与 统计 。 如 果 你 太 过 度 了 ， 人 们 会 被 
搞 坚 。 最 常见 的 错误 是 提出 很 多 公司 特定 的 技术 细节 ， 这 对 公司 以 外 的 人 是 没有 意义 的 。 


一 个 极端 的 例子 是 太 简 单 了 ， 有 时 几乎 没有 任何 信息 。 一 个 常见 的 例子 是 说 “我 构建 了 后 
服务 器 ”。 没有 人 可 以 评估 这 个 项 目的 复杂 性 ， 因 为 构建 后 端 服务 器 ss 
数 百 万 个 请 求 的 复杂 后 端 系统 ， 它 也 可 以 意味 着 具有 30 行 代码 的 简单 的 Web 服务 器 。 


Sy 


那么 什么 是 很 好 的 平衡 ? 对 于 没有 相关 背景 的 人 ， 我 想 说 你 的 描述 应 该 清楚 ， 同 时 给 人 们 一 
些 复 杂 的 印象 。 这 取决 于 具体 情况 ， 但 你 可 以 向 你 的 朋友 询问 反馈 。 
招聘 会 


如 果 你 是 学 生 ， 招 聘 会 是 你 最 大 的 优势 之 一 。 对 于 大 多 数 顶 尖 大 学 来 说 ， 谷 歌 和 其 他 公司 每 
年 至 少 会 有 两 次 。 


在 网 上 有 很 多 招聘 会 的 提示 ， 我 唯一 的 建议 是 花 时 间 准 备 。 


当天 有 很 多 不 确定 因素 。 例 如 ， 你 不 知道 招聘 人 员 会 问 你 什么 ， 招 聘 人 员 是 否 会 提出 编程 问 
题 等 等 。 唯 一 的 办 法 就 是 让 自己 准备 好 。 


。 准备 好 你 的 电梯 演讲 

。 准备 好 询问 每 个 公司 的 问题 

。 准备 好 回答 编程 问题 【不 幸 的 是 ， 这 很 常见 ) 

。 热门 公司 通常 有 很 长 的 队伍 。 优先 考 虑 所 有 你 想 申请 的 公司 ， 并 提前 确定 地 点 。 


弄 清楚 你 可 以 准备 什么 东西 ， 什 么 不 可 以 ， 你 只 需要 尽早 开始 准备 。 


在 线 申 请 
你 可 以 通过 在 线 中 请 将 你 的 简历 提交 给 谷歌 。 这 是 最 常见 和 最 不 推荐 的 方法 。 原因 是 ， 如 果 
大 多 数 人 打算 这 样 做 ， 那 么 你 的 竞争 力 就 会 降低 ， 除 非 你 的 简历 丨 正 突出 。 


不 幸 的 是 ， 我 对 这 种 方法 的 唯一 建议 是 不 要 抱 太 大 希望 。 


谷歌 编程 挑战 客 

这 是 一 个 不 太 常 见 的 渠道 ， 但 我 仍然 列 在 这 里 ， 以 防 有 人 满足 要 求 。 谷歌 编程 挑战 赛 是 谷歌 
每 年 主办 的 编程 竞赛 。 谷歌 也 试图 通过 这 个 比赛 吸引 工程 师 。 

如 果 你 已 经 党 试 了 TopCoder， 应 该 非常 相似 。 实际 上 ， 歌 编程 挑战 赛 并 不 是 唯一 的 渠道 。 
对 于 大 多 数 顶 级 编码 竞赛 ， 谷 歌 和 Facebook 等 公司 正在 从 获奖 者 中 招募 候选 人 。 

除非 你 对 编程 竞赛 超级 感 兴 趣 ， 否 则 我 不 建议 你 使 用 这 种 方法 。 阅读 “编程 比赛 对 于 获得 工作 
很 实用 四 ?”， 更 深入 了 解 这 个 话题 。 总 之 ， 获 奖 很 难 ， 但 整个 准备 过 程 是 相当 有 益 的 。 
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如 果 你 不 断 更 新 Linkedln，Github 和 其 他 个 人 资料 ， 谷 歌 招聘 人 员 有 可 能 会 与 你 联系 。 但 是 
不 要 把 它 当 成 你 唯一 的 方法 ， 因 为 机 会 很 少 。 


最 有 效 的 方式 仍然 是 通过 推荐 。 最 常见 的 障碍 不 是 缺少 联系 ， 而 是 担心 被 拒绝 。 试 着 这 样 思 
考 ， 最 坏 的 结果 就 是 被 拒绝 了 ， 而 你 什么 都 不 会 损失 。 我 没有 看 到 任何 东西 能 阻止 你 尝试 。 


顺便 提 一 下 ， 如 果 你 想得到 资深 的 面试 官 的 更 多 指导 ， 可 以 查看 Gainlo， 以 便 与 Google ， 
Facebook 等 公司 的 工程 师 进 行 模拟 面试 。 


二 、 构 建 扎实 的 基础 


原文 : Chapter 2: Build a Solid Foundation 

译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 

自豪 地 采用 谷歌 翻译 
这 是 我 们 的 “谷歌 面试 准备 系列 指南 "的 第 二 章 。 如 果 你 注意 到 很 多 工作 要 求 ， 你 通常 会 看 到 
像 "有 扎实 的 计算 机 科学 基础 "的 东西 。 这 实际 上 是 什么 意思 ? 


显然 ， 这 并 不 意味 着 你 有 计算 机 科学 学 位 ， 也 不 意味 着 你 写 了 很 多 代码 。 在 现实 中 ， 扎 实 的 
计算 机 科学 基础 意味 着 对 基础 知识 有 清晰 的 认识 。 


Rr 


这 一 章 中 ， 我 想 深入 探讨 这 个 话题 ， 并 给 你 如 何 建 立 扎 实 的 基础 的 实用 技巧 。 我 可 以 说 这 
是 谷歌 面试 准备 的 切入 点 ， 但 同时 也 是 最 重要 的 一 步 。 


最 短路 径 
很 多 人 都 在 寻求 谷歌 面试 准备 的 “捷径 ”。 如果 存 在 捷径 的 话 ， 我 想 说 的 是 把 重点 放 在 计算 机 
科学 的 基础 上 。 


这 里 的 提示 是 做 长 远 规划 。 最 常见 的 错误 是 ， 清 晰 理解 基础 知识 之 前 练习 编码 问题 。 这 些 人 
在 短期 内 可 能 会 有 更 好 的 表现 ， 但 他 们 迟早 会 回来 重新 学 习 基 础 知识 。 


这 是 因为 如 果 没 有 完全 理解 基本 的 数据 结构 和 算法 ， 想 出 正确 的 想法 和 编写 无 错 代码 几乎 是 
不 可 能 的 。 如 果 你 申 的 想 做 好 准备 ， 从 长 远 的 角度 来 看 ， 在 基本 的 事情 上 花费 足够 的 精力 将 
会 为 你 节省 大 量 的 时 间 。 


我 强烈 建议 人 们 ， 在 对 基础 有 信心 之 前 不 要 尝试 面试 问题 。 


扎实 的 基础 对 你 意味 着 什么 ? 
有 了 时， 人 们 问 我 ， 扎 实 的 计算 机 科学 基础 是 什么 意思 ? 我 可 以 写 代码 ， 我 知道 冒 泡 排序 ， 这 
是 否 意味 着 我 很 好 ? 


对 于 编程 面试 来 说 ， 基 础 大 多 意味 着 基本 数据 结构 和 算法 的 清晰 理解 。 我 将 在 这 篇 文章 中 乏 
步 解 释 这 一 点 。 但 是 试 着 回答 下 面 的 问题 : 


如 何在 图 中 进行 搜索 ? 每 种 方法 的 优 缺点 是 什么 ? 如 何 决定 使 用 哪 一 个 ? 对 于 对 象 列 表 ， 
数组 ， 栈 ， 队 列 和 其 他 数据 结构 。 你 将 如 何 决定 使 用 哪 一 个 ?最 大 的 优势 /劣势 
是 什么 ? 动态 规划 和 递归 有 什么 区 别 ? 你 如 何 比较 北 归 解决 方案 和 它 的 迭代 版 本 ? 如果 我 想 
0 o(nA2) 的 时 间 复 杂 度 提高 到 o(nlogn) ， 你 会 想到 什么 算法 ? o(n) 又 如 


可 
力 


这 些 只 是 我 脑海 中 的 一 些 示 例 性 问题 ， 如 果 你 不 能 立即 回答 所 有 问题 ， 最 好 回顾 你 的 算法 书 
让 我 们 一 步 一 步 解 构 计 算 机 科学 基础 。 


定义 


首先 ， 该 清楚 每 个 基本 数据 结构 和 算法 的 定义 。 大 多 数 人 解释 链表 是 什么 没有 什么 问 
题 ， 本 区 ee 东西 。 


首先 ， 一 些 概 念 有 点 混乱 。 例 如 ， 很 多 候选 人 不 完全 了 解 动 态 规 划 和 递归 之 间 的 区 别 。 另 一 
个 例子 是 栈 和 堆 ， 以 及 它们 如 何在 内 存 中 使 用 。 这 篇 文章 不 会 给 你 具体 的 答案 ， 但 如 果 你 只 
进行 简单 的 谷歌 搜索 ， 你 会 发 现 这 一 切 。 


其 次 ， 你 也 应 该 能 够 实现 它们 。 最 好 的 例子 是 快速 排序 。 该 算法 在 实现 方面 并 不 是 很 容易 ， 
但 可 能 会 非常 有 帮助 。 如 果 你 想 实现 在 数组 中 找到 第 k 个 最 大 的 数字 ， 你 应 该 用 一 个 堆 ( 译 
者 注 ， 这 里 原文 有 错误 ) 。 BFS/DFS 也 是 类 似 的 ， 很 多 面试 问题 都 是 关于 如 何 编写 
BFS/DFS (例如 遍历 一 个 树 ) 。 


优 缺 点 


试 中 最 大 的 麻烦 是 候选 人 不 知道 要 使 用 哪 种 数据 结构 /算法 。 根本 原因 是 他 们 从 来 没有 想 过 每 
个 数据 结构 /算法 的 优 缺点 。 这 个 想法 是 ， 所 有 这 些 基本 的 数据 结构 / 彰 法 都 像 你 的 武 右 ， 如 果 
你 想 在 正确 的 时 间 使 用 正确 的 数据 结构 / 萌 法 ， 你 应 该 非常 熟悉 他 们 的 特性 。 


幸运 的 是 ， 大 部 分 资源 和 书籍 在 同一 个 大 章节 中 组 合 了 类 似 的 工具 。 例如， 链表 ， 数 组 ， 栈 
和 队列 在 一 个 集合 中 。 BFS 和 DFS 在 另 一 个 集合 中 。 


我 们 以 BFS 和 DFS 为 例 。 


。 在 一 个 树 形 结构 中 ，DFS 将 尝试 到 达 最 深 的 叶子 节点 ， 回 到 原 处 ， 并 找到 另 一 个 叶子 节 
点 。 所 以 使 用 了 一 个 栈 ， 并 且 可 以 递归 地 (易于 编写 ) 和 和 迭代 地 实现 。 

。 好 处 是 ， 当 你 要 检查 节点 是 否 可 到 达 或 想 要 找到 从 A 到 B 的 路 径 时 ，DFS 是 最 佳 选 择 。 

同样 ，BFS 横向 遍历 ， 并 使 用 队列 。 

e 如 果 你 想 找到 最 短路 径 的 长 度 或 者 遍历 层次 ， 你 应 该 使 用 BFS 。 


所 以 作业 是 针对 每 一 个 数据 结构 /算法 ， 你 应 该 问 自 己 : 有 什么 优点 /缺点 ? 我 什么 时 候 可 以 使 
用 它 ? 


一 所 
复杂 上 度 
这 是 很 多 人 忽略 的 。 作 为 一 个 面试 ， 对 于 我 所 问 的 每 一 个 编程 问题 ， 我 一 定 会 问 及 时 间 和 空 


多 
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间 的 复杂 度 。 同 样 ， 在 复习 数据 结构 /算法 时 ， 你 应 该 清楚 复杂 度 。 事 实 上 ， 你 也 应 该 对 你 练 
习 的 每 一 个 问题 做 这 个 。 


如 果 你 对 此 非常 熟悉 ， 那 么 当 你 尝试 确定 要 使 用 哪 种 算法 时 ， 这 会 非常 有 用 。 例 如 ， 最 常见 
的 情况 是 你 的 解决 方案 很 慢 ， 面 试 官 要 求 你 对 其 进行 优化 。 假 设 你 有 一 个 0(n^2) 的 方法 ， 为 
了 让 它 更 快 ， 我 们 可 以 这 样 想 : 
。 一 般 来 说 ， 为 了 提高 速度 ， 我 们 可 以 选择 更 好 的 数据 结构 /算法 ， 或 者 使 用 更 多 的 内 存 。 
e。 如 果 我 们 想 使 它 成 为 o(nlogn) ， 有 几 种 可 用 的 工具 : 二 分 搜索 ， 排 序 ，BST 等 等 。 也 许 
你 应 该 尝试 对 数组 排序 ， 看 看 你 是 否 可 以 利用 它 。 
e 要 使 用 更 多 的 内 存 ， 散 列 是 一 个 选项 。 另 外 ，DP 是 优化 递归 的 好 方法 。 


如 果 你 这 样 想 ， 你 的 生活 会 更 轻松 ， 因 为 你 有 更 少 的 选项 来 选择 。 
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技术 面试 备忘录 和 大 O 备忘录 有 很 多 这 个 主题 的 资源 。 此 外 ， 也 推荐 《算法 导论 》 这 本 书 ， 
虽然 有 些 章节 是 可 选 的 。 

作为 一 名 面试 官 ， 我 绝对 不 会 通过 弄 不 清 基 本 概念 的 候选 人 。 对 我 来 说 ， 这 就 像 候 选 人 不 知 
道 他 在 做 什么 。 相 反 ， 即 使 有 人 没有 彻底 解决 问题 ， 如 果 一 切 都 清楚 的 话 ， 他 还 是 有 机 会 
的 。 


我 会 建议 人 们 逐个 查阅 所 有 基本 的 数据 结构 /算法 。 了解 这 个 概念 ， 弄 清楚 利 商 ， 并 自己 实 
现 。 在 这 一 步 完 成 之 前 ， 不 要 急于 练习 编程 问题 。 


顺便 提 一 下 ， 如 果 你 想得到 资深 的 面试 官 的 更 多 指导 ， 可 以 查看 Gainlo， 以 便 与 Google ， 
Facebook 等 公司 的 工程 师 进 行 模拟 面试 。 


三 、 练 习 编 程 问 题 


原文 : Chapter 3: Practice Coding Questions 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 


这 是 我 们 的 “谷歌 面试 准备 系列 指南 "的 第 三 章 。 谈 到 谷歌 面试 准备 时 ， 大 多 数 人 会 考虑 尽 可 
能 多 地 练习 编程 问题 。 
这 部 分 是 正确 的 ， 因 为 你 当然 需要 练习 。 但 是 ， 很 少 有 人 做 得 正确 。 用 正确 的 方法 ， 你 绝对 
可 以 巧妙 地 练习 ， 并 在 更 短 的 时 间 内 得 到 改善 。 
在 这 一 章 中 ， 我 将 详细 解释 如 何 用 以 前 的 实用 技巧 来 练习 编程 问题 。 更 具体 地 说 ， 你 会 更 多 
地 了 解 以 下 问题 : 

。 为 什么 我 们 需要 练习 编程 问题 

。 何 时 练习 编程 问题 

。 如 何 巧妙 地 练习 (这 篇 文章 主要 是 关注 这 个 ) 

。 推荐 的 资源 


为 什么 练习 编程 问题 
我 们 应 该 总 是 问 自己 为 什么 需要 做 一 些 事情 。 如 果 我 们 没有 明确 的 答案 ， 它 不 值得 花费 时 间 
和 精力 。 


编程 面试 的 严峻 事实 是 ， 所 提出 的 问题 与 软件 工程 师 的 日 常 工作 没有 直接 关系 。 你 很 少 在 一 
个 实际 的 项 目 中 实现 一 个 递归 算法 ， 最 常用 的 数据 结构 不 是 树 ， 栈 或 队列 ， 它 只 是 数组 。 


然而 ， 评 估 一 名 工程 师 的 最 具 成 本 效益 的 方式 仍然 是 编程 问题 ， 因 为 没有 公司 能 够 给 每 个 候 
选 人 一 个 月 的 实习 来 评估 他 /她 的 技能 。 


这 意味 着 ， 除 非 发 明 更 好 的 面试 形式 ， 否 则 编程 问题 仍然 是 “考试 "的 主要 形式 。 为 了 在 这 个 游 
戏 中 生存 ， 你 必须 习惯 于 那些 在 实际 项 目 中 永远 不 会 遇 到 的 问题 。 


不 要 期 待 再 次 提出 同样 的 问题 (尽管 这 是 可 能 的 ) ， 而 是 熟悉 这 种 类 型 的 问题 ， 也 可 能 对 你 
的 工作 有 所 帮助 。 


什么 时 候 


我 必须 在 这 里 强调 多 次 : 在 熟悉 基本 的 数据 结构 /算法 之 前 开始 练习 编程 问 


人 
是 过 早 开 始 练习 编码 问题 。 这 就 像 没有 扎实 的 基础 ， 一 切 都 只 是 废话 。 


好 的 ， 在 这 篇 文章 的 其 余部 分 ， 我 会 专注 于 如 何 巧妙 地 进行 练习 。 


几 年 前 ， 网 上 没有 任何 资源 ， 人 们 不 知道 该 怎么 准备 。 现在 ， 你 可 以 找到 你 练习 不 到 的 更 多 
的 问题 。 这 个 想法 是 ， 你 不 需要 完成 你 在 网 上 看 到 的 每 一 个 问题 ， 也 不 需要 浏览 所 有 这 些 在 
线 资源 。 


80/20 规则 说 80% 的 结果 来 自 20% 的 原因 。 我 想 帮助 你 确定 你 需要 关注 的 20% 。 


提示 1 : 编写 健 半 的 代码 
很 多 人 都 害怕 亲自 做 一 件 事 。 在 练习 编程 问题 时 ， 他 们 所 做 的 一 切 就 是 "用 自己 的 想法 "来 角 
决 问题 。 如 果 他 们 提出 了 理论 上 的 解决 方案 ， 他 们 认为 他 们 已 经 解决 了 这 个 问题 。 


用 我 的 话 来 说 ， 正 确 的 做 法 甚至 还 没有 完成 一 半 。 这 是 因为 我 见 多 的 人 ， 即 使 他 们 的 
想法 是 完全 正确 的 ， 也 没有 写 下 可 靠 的 代码 。 


常见 的 抱怨 是 “我 的 执行 速度 A 我 只 是 没有 得 到 正确 的 代 
成 的 代 三 只 有 各 少 的 小 全 这 竺 。 妈 家 让 这 些 都 不 是 微不足道 的 ， 如 果 你 还 记得 
一 些 东 西 ， 这 不 是 你 可 以 立即 改 掉 的 东西 。 实 质 上 ， 这 些 人 只 是 没有 写 足 够 的 代码 而 已 。 


统计 显示 ， 只 有 10% 的 程序 员 可 以 编写 二 分 搜索 而 没有 错误 。 我 希望 这 个 数字 能 让 你 更 加 关 
注 代码 。 


面试 与 考试 不 同 ， 因 为 这 是 一 个 互动 的 过 程 。 有 些 候选 人 喜欢 说 “给 我 10 分 钟 ”， 然 后 一 切 都 
沉默 了 。 
相反 ， 强 烈 建议 把 想法 说 出 来 。 这 有 很 多 好 处 : 


。 展示 你 的 沟通 技巧 

“因果 你 不 在 正确 的 路 线 上 上 面试 官 更 有 可 能 纠正 你 

。 这 可 以 帮助 你 更 清楚 地 理解 你 的 想法 ， 并 防止 你 在 想法 足够 具体 之 前 编写 代码 
但 是 ， 这 个 建议 说 起 来 容易 ， 但 做 起 来 难 。 大 多 数 人 习惯 安静 地 思考 。 因此 ， 在 实践 中 把 想 
法 说 出 来 是 很 重要 的 。 事实 上 ， 你 应 该 和 面试 一 样 做 相同 的 事情 。 


另 一 种 做 法 是 与 Gaino 的 朋友 或 有 经 验 的 面试 者 进行 模拟 面试 。 


提示 3 : 跟踪 你 的 时 间 


大 多 数 人 喜欢 在 安全 舒适 的 环境 中 练习 。 这 是 错 的 ! 请 记 住 ， 如 果 你 的 实践 环境 与 莫 实 面试 
过 于 不 同 ， 你 很 可 能 会 有 意 想不到 的 经 历 。 


最 常见 的 抱怨 之 一 是 “我 没有 足够 的 时 间 来 完成 代码 ”。 老实 说， 我 一 点 也 不 惊讶 。 在 练习 编码 
问题 时 ， 有 多 少 人 注意 速度 ?很 少 。 

我 的 建议 很 简单 。 如 果 你 想 改 进 一 些 东西 ， 跟 踪 它 。 当 每 个 人 第 一 次 跟踪 时 间 的 时 候 ， 它 们 
都 会 对 速度 有 多 慢 感 到 惊讶 。 人 类 不 善于 估计 时 间 。 

对 于 谷歌 编程 面试 ， 每 一 个 正好 45 分 钟 。 你 会 打 个 招呼 ， 并 在 第 一 个 5 分 钟 内 介绍 自己 ， 最 
后 ， 你 可 以 再 花 5 分 钟 提问 。 在 剩余 的 35 分 钟 内 ， 你 需要 完成 2 个 编程 问题 ， 其 中 至 少 有 一 
个 需要 编写 代码 。 

不 要 忘记 ， 你 也 将 与 面试 官 讨论 ， 所 以 你 可 能 有 更 少 的 时 间 来 编写 代码 。 这 在 其 他 公司 中 是 
相当 标准 的 。 


提示 4 : 返回 到 基础 知识 


不 要 为 了 练习 编程 问题 而 练习 编程 问题 。 你 需要 弄 清楚 自己 的 弱点 ， 并 在 选择 问题 时 做 出 明 
智 的 选择 。 不 管 你 多 努力 ， 总 是 会 有 更 多 的 无 法 准备 的 问题 。 处 理 正确 的 问题 是 成 功 的 关 
键 。 


一 开始 ， 最 好 涵盖 许多 不 同类 型 的 问题 (例如 链表 ， 递 归 ， 动 态 规 划 等 ) 。 不 过 ， 以 后 你 应 

该 更 专注 。 

如 果 你 发 现 自己 的 弱点 是 一 个 特定 的 领域 ， 例 如 树 问题 。 通 常 有 两 种 情况 : 

1， 你 的 基础 不 够 牢固 。 换 和 句 话 说， 你 对 基本 的 数据 结构 /算法 没有 清晰 的 认识 。 在 这 种 情况 
下 ， 不 管 你 练习 了 多 少 个 问题 ， 你 的 问题 总 是 在 那里 。 你 应 该 做 的 ， 是 回顾 你 的 教科 
书 ， 并 解决 根本 问题 。 

2， 有 时 候 ， 你 只 需要 多 练习 。 去 寻找 更 多 相同 类 型 的 问题 ， 并 把 重点 放 在 这 个 领域 一 段 时 
间 。 这 是 一 个 比 漫 无 目的 的 更 有 效 的 方法 。 


\ 了 三 NA 
推荐 的 资源 
你 无 法 练习 所 有 在 线 问题 。 准备 正确 的 资源 可 以 为 你 节省 大 量 的 时 间 ， 这 就 是 为 什么 我 认为 
每 个 人 都 应 该 严格 挑选 在 线 资 源 。 
这 里 有 几 个 我 推荐 的 资源 : 


e Gainlo 编程 面试 问题 - 我 们 介绍 了 很 多 带 有 详细 分 析 的 问题 ， 像 谷歌 ， 优 步 这 样 的 顶尖 
公司 都 会 询问 它们 。 我 认为 分 析 过 程 比 答案 更 有 价值 。 


e Leetcode - 我 不 建议 你 完成 Leetcode 的 所 有 问题 。 然而 ， 它 标 出 了 不 同 层 次 的 问题 ， 
用 于 很 好 地 了 解 你 是 什么 水 平 。 

。 Glassdoor - 我 通常 在 准备 的 最 后 阶段 使 用 这 个 网 站 。 假设 你 将 在 两 周 内 面试 谷歌 。 你 
绝对 可 以 在 那里 找到 最 近 提 出 的 问题 。 


我 并 不 认为 你 丨 的 需要 10 多 本 书 /网 站 来 练习 o 但 是 9 对 于 你 解决 的 每 一 个 问题 你 都 应 该 
把 它 当成 站 正 的 面试 问题 。 


本 章 的 重点 绝对 不 是 让 你 练习 尽 可 能 多 的 问题 。 你 应 该 挑选 在 线 资源 ， 并 在 实践 中 聪明 一 
此 


清楚 自己 的 实力 /弱点 并 做 相应 的 准备 。 了 解 你 自己 而 不 是 漫 无 目的 地 工作 ， 这 很 重要 。 
如 果 我 希望 从 本 章 中 得 到 一 件 事 情 ， 那 就 是 确定 你 的 20% 的 努力 ， 并 尽 可 能 多 地 关注 它 。 


顺便 提 一 下 ， 如 果 你 想得到 资深 的 面试 官 的 更 多 指导 ， 可 以 查看 Gainlo， 以 便 与 Google， 
Facebook 等 公司 的 工程 师 进 行 模拟 面试 。 


四 、 资 深 工程 是、 应 届 生 和 实习 生 


原文 : Chapter 4: Experienced Engineers, New Grads, and Interns 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 
这 是 我 们 的 “Google 面 试 准备 系列 完全 指南 "的 第 四 章 。 


我 们 的 读者 有 着 完全 不 同 的 背景 。 有 些 已 经 在 业内 一 段 时 间 了 ， 有 些 是 国际 学 生 ， 有 些 正在 
寻找 谷歌 的 实习 。 


准备 过 程 可 能 会 有 很 大 的 不 同 ， 取决 于 你 的 背景 和 目标 。 这 就 是 为 什么 在 本 章 中 ， 我 想 为 每 
种 面试 者 提供 更 具体 的 提示 。 


基本 上 ， 我 把 面试 者 分 为 三 类 : 资深 工程 师 ， 新 毕业 生 和 实习 生 。 如 果 你 正在 寻找 管理 职 
位 ， 这 篇 文章 不 适合 你 。 另外 ， 如 果 你 还 没有 阅读 以 前 的 章节 ， 我 强烈 建议 你 看 看 他 们 。 


相似 和 不 同 


无 论 你 的 背景 是 什么 ， 面 试 过 程 在 内 容 和 形式 上 差不多 。 例 如 ， 无 论 你 经 验 丰 富 或 缺乏 经 
验 ， 你 总 会 被 期 望 写 出 可 靠 的 代码 。 


基本 上 ， 像 Google，Facebook，Uber 这 样 的 公司 的 面试 主要 集中 在 数据 结构 ， 算 法 ， 系 统 
设计 和 测试 〈 我 不 涉及 沟通 这 样 的 非 技术 部 分 ) 。 让 我 把 它们 在 这 里 拆 解 一 下 : 


。 数据 结构 。 候 选 人 应 该 非常 熟悉 树 ， 哈 希 表 ， 栈 /队列 等 所 有 基本 数据 结构 。 一 个 很 好 的 
例子 是 ， 如 果 你 正在 实现 一 个 BFS， 你 应 该 清楚 使 用 哪个 数据 结构 。 

。 算法 。 如 果 面 试 官 要 求 你 逐 层 遍历 树 ， 你 知道 使 用 哪 种 算法 吗 ? 而 有 全 ， 许 多 人 往往 忽视 
的 是 时 间 和 空间 的 复杂 性 。 我 想 说 ， 如 果 候 选 人 在 分 析 复 杂 性 方面 有 困难 ， 我 很 难 给 他 / 
她 一 个 好 的 分 数 。 

。 测试 。 确 保 代码 能 够 正常 工作 是 非常 重要 的 。 有 些 人 甚至 是 TDD 的 铁杆 粉丝 。 在 练习 编 
码 问 题 时 ， 总 是 问 自己 如 何 测试 你 的 解决 方案 ? 你 会 提供 哪些 测试 用 例 ? 作为 一 名 面试 
官 ， 我 通常 会 寻找 能 够 覆盖 这 些 角落 案例 的 候选 人 ， 并 且 能 够 将 代码 模块 化 以 便于 测 
试 。 

e 系统 设计 。 这 是 高 级 和 低级 工程 师 之 间 的 一 大 区 别 。 设 计 一 个 可 扩展 和 健壮 的 系统 并 不 
是 一 件 容易 的 事情 。 我 们 很 快 就 会 在 整个 章节 中 讨论 这 个 话题 。 


实习 生 的 系统 设计 通常 是 可 选 的 。 但 是 每 个 人 都 需要 数据 结构 ， 莫 法 和 测试 。 


此 外 ， 即 使 提出 同样 的 问题 ， 企 业 对 学 生 的 期 望 通常 也 较 低 ， 这 是 合理 的 ， 因 为 他 们 没有 太 
多 的 工作 经 验 。 


作为 一 个 面试 官 ， 我 通常 会 问 类 似 的 问题 ， 不 管 背 景 如 何 。 对 于 实习 生 ， 我 可 能 会 选择 比较 
易 的 问题 ， 但 是 我 肯定 会 要 求 大 家 写 代 码 。 


应 届 生 和 实习 生 


事实 上 ， 在 面试 准备 方面 ， 我 并 没有 看 到 应 届 生 和 实习 生 之 间 的 过 大 差异 。 虽然 实习 生 可 能 
门槛 更 低 ， 但 面试 过 程 是 完全 一 样 的 。 


专注 于 数据 结构 /算法 


如 果 你 精通 基本 的 数据 结构 /并 法 ， 你 至 少 完成 了 80%。 我 并 不 压 张 。 这 是 因为 没有 人 期 望 
学 生 有 太 多 的 工作 经 验 ， 所 以 公司 只 能 测试 基础 知识 。 另外 ， 拥 有 扎实 基础 通常 是 面试 官 寻 
找 的 第 一 件 事 。 


在 我 看 来 ， 如 果 学 生 对 基础 知识 非常 熟悉 ， 那 就 意味 着 他 知道 自己 的 代码 ， 他 知道 自己 在 做 
什么 


因此 ， 在 这 个 领域 花 尽 可 能 多 的 时 间 和 精力 。 回顾 你 的 教科 书 并 练习 足够 的 编程 问题 。 如果 
有 什么 捷径 的 话 ， 一 定 要 把 重点 放 在 基础 上 。 
项 目 和 实习 


虽然 面试 官 的 期 望 值 较 低 ， 但 如 果 你 做 了 一 些 很 酷 的 项 目 ， 那 盖 的 会 很 不 一 样 。 如 果 是 课程 
项 目 ， 个 人 项 目 或 实习 ， 也 没有 关系 。 


在 面试 开始 时 ， 你 通常 有 机 会 介绍 自己 ， 并 简要 解释 你 之 前 的 一 些 “ 经 验 ”"。 之 前 的 实习 会 很 
棒 ， 因 为 这 表明 你 之 前 从 事 过 昌 正 的 项 目 。 


ot a dh (半年 以 上 ) ， 那 么 做 一 些 项 目 ， 而 不 是 仅仅 做 一 些 编程 问 
题 ， 确 实 是 值得 的 。 另 一 个 好 处 是 准备 系统 设计 面试 丨 的 很 有 帮助 ， 我 们 很 快 就 会 在 后 面 的 
i 文 个 问题 Q 


另 一 个 任务 是 花 时间 准 备 你 的 介绍 。 找 出 你 想 突 出 显示 的 项 目 ， 并 使 你 的 语言 清晰 易 懂 。 不 
要 以 为 面试 官 具有 所 有 的 背景 。 


资深 工程 师 


最 大 的 陷阱 


在 进行 了 大 量 的 面试 后 ， 我 得 出 结论 : 应 届 生 在 编程 问题 上 总 体 胜 过 资深 工程 师 。 

每 个 人 都 知道 ， 如 果 你 已 经 在 工业 界 工作 了 一 段 时 间 ， 你 可 能 会 发 现 一 些 编程 问题 环 手 ， 难 
以 解决 。 而 且 丨 的 需要 一 些 时 间 才 能 回忆 起 你 过 去 所 做 的 所 有 事情 。 

更 重要 的 是 ， 一 旦 你 写 了 大 量 的 生产 代码 ， 你 就 会 有 一 种 错觉 ， 就 是 你 可 以 很 容易 地 破解 所 
有 的 编程 问题 。 但 是 ， 这 不 是 事实 ， 因 为 我 们 必须 承认 ， 编 程 问题 与 真实 项 目 还 是 有 很 大 不 
同 的 。 

从 这 个 角度 来 看 ， 作 为 一 名 资深 工程 师 ， 高 估 自 己 的 面试 技巧 是 非常 危险 的 。 你 应 该 做 一 个 
新 手 来 准备 ， 并 且 脚 踏实 地 。 


以 往 的 经 验 
资深 工程 师 最 大 的 优势 之 一 是 有 以 前 的 工作 经 验 。 但 是 ， 并 不 是 每 个 人 都 知道 如 何 最 好 地 使 
用 它 。 


在 每 次 面试 的 开始 ， 候 选 人 通常 有 机 会 谈论 他 们 过 去 的 工作 。 很 多 人 不 理会 这 个 ， 这 是 最 大 
的 错误 之 一 。 


停 地 谈论 他 过 去 的 工作 ， 其 中 大 部 分 都 是 无 聊 的 。 


底线 是 你 至 少 应 该 花 一 些 时 间 准 备 介绍 。 经 验 法 则 是 针对 不 同 的 公司 和 不 同 的 团队 准备 不 同 
的 故事 。 显 示 过 去 所 做 的 相关 事情 确实 是 一 个 加 分 项 。 


时 间 管 理 


本章 中 我 还 会 简要 讨论 时 间 管 理 ， 因 为 很 多 人 抱怨 由 于 作业 或 当前 的 工作 ， 他 们 没有 时 间 准 
备 。 


一 般 来 说 ， 学 生 是 否 有 更 多 的 时 间 准 备 ， 这 很 难说 。 但 事实 是 ， 简 短 的 时 间 表 总 是 更 好 。 证 
我 详细 解释 一 下 。 


有 些 人 喜欢 做 一 年 的 计划 ， 每 天 只 能 花 半 小 时 或 者 没有 时 间 。 另 一 种 方法 是 将 你 的 计划 挤 压 
到 三 个 月 的 时 间 ， 但 每 天 都 花费 很 多 时 间 。 后 者 通常 效果 更 好 。 


对 于 学 生来 说 ， 我 知道 总 有 课程 项 目 或 期 末 考 试 会 消耗 掉 你 的 所 有 了 时间。 尝试 每 天 分 配 3-4 
小 时 。 可 能 是 早上 2 小时， 晚上 2 小时。 或 者 你 可 以 根据 你 的 课程 调整 时 间 表 。 但 关键 是 持 
之 以 恒 。 如 果 偶 尔 因 为 某 些 原因 而 停止 准备 一 周 的 话 ， 它 将 不 起 作用 。 说 实话 ， 面 试 官 不 关 
心 你 的 GPA， 只 要 它 不 是 非常 低 。 你 应 该 优先 考虑 一 切 。 


对 于 有 全 职工 作 的 人 ， 你 最 好 利用 你 早晚 的 时 间 。 很 少 有 人 可 以 提早 起 床 ， 做 一 些 工作 ， 这 
是 你 区 别 于 其 他 候选 人 的 原因 。 另 外 ， 面 试 之 前 的 几 天 ， 如 果 可 能 ， 请 休息 几 天 。 


持之以恒 是 我 在 这 里 给 出 的 最 重要 的 建议 。 


有 时 候 ， 资 深 工程 师 和 学 生 之 间 的 差异 完全 在 于 心态 。 


应 届 生 /实习 生 对 面试 太 害 由 了， 因为 他 们 认为 他 们 对 软件 构建 一 无 所 知 。 但是， 由 于 期 望 
低 ， 只 需要 有 一 个 扎实 的 计算 机 科学 基础 。 


同样 ， 资 深 工 程 师 往 往 高 估 自 己 的 面试 技巧 ， 因 为 他 们 每 天 都 在 写 代 码 。 事实 是 ， 他 们 比 学 
生 更 可 能 在 编程 问题 上 失败 。 


无 论 你 的 背景 是 什么 ， 关 注 你 可 以 改变 的 事情 ， 像 练习 编程 问题 和 准备 你 的 介绍 。 


顺便 提 一 下 ， 如 果 你 想得到 资深 的 面试 官 的 更 多 指导 ， 可 以 查看 Gainlo， 以 便 与 Google， 
Facebook 等 公司 的 工程 师 进 行 模拟 面试 。 


五 、 系 统 设 计 面 试 (第 一 部 分 ) 


原文 : Chapter 5: System Design Interviews (Part |) 

译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 

自豪 地 采用 谷歌 翻译 
这 是 我 们 的 “谷歌 面试 准备 系列 指南 "的 第 五 章 。 
从 Gainlo 的 调查 来 看 ， 系 统 设计 面试 是 人 们 所 害怕 的 第 一 件 事 。 并 不 针对 谷歌 面试 准备 ， 而 
是 所 有 的 公司 。 
部 分 原因 是 系统 设计 问题 通常 是 开放 式 的 ， 所 以 没有 标准 答案 。 另 外 ， 这 个 问题 也 难以 准 
备 ， 因 为 你 不 知道 你 的 解决 方案 是 否 工作 。 
让 我 们 在 这 一 章 解 决 所 有 这 些 问 题 。 我 将 简要 介绍 一 下 如 何 评 估 系 统 设 计 面试 ， 然 后 提供 准 
备 和 面试 策略 的 实用 技巧 。 


系统 设计 面试 是 什么 

对 于 这 个 话题 的 新 手 ， 我 会 简单 地 解释 一 下 。 对 于 Google，Facebook，Uber 等 大 多 数 顶 尖 
公司 来 说 ， 现 场面 试 中 至 少 有 一 个 是 系统 设计 面试。 

在 这 个 面试 中 ， 你 将 被 要 求 设计 一 个 特定 的 系统 ， 并 与 面试 官 就 所 有 细节 进行 激烈 的 讨论 。 
但 是 ， 由 于 这 个 问题 是 相当 开放 的 ， 面 试 官 可 以 决定 讨论 的 方向 。 考 虑 到 这 一 点 ， 即 使 是 同 
一 个 问题 ， 你 可 能 会 与 不 同 的 面试 官 进行 完全 不 同 的 讨论 。 

这 也 是 我 从 来 不 担心 面试 者 是 否 曾经 看 到 过 这 个 问题 的 原因 。 我 们 以 “设计 一 个 网 络 候 虫 "这 个 
问题 为 例 。 作 为 面试 官 ， 我 可 以 将 面试 集中 在 整个 仆 虫 基础 结构 上 ， 我 可 以 具体 讨论 如 何 去 
除 URL， 还 可 以 询问 如 何 检测 页 面 是 否 已 经 更 新 。 

也 可 能 会 要 求 你 在 系统 设计 面试 中 写 下 一 些 代 码 。 但 是 我 没有 看 到 与 一 般 的 编程 面试 有 太 大 
的 区 别 ， 在 本 章 中 我 们 不 会 涉及 到 这 一 部 分 ， 因 为 你 可 以 参考 前 面 的 章节 。 


系统 设计 面试 如 何 评估 ? 


我 坚信 ， 如 果 你 不 能 评估 一 件 事情 ， 你 就 不 能 改善 它 。 大 多 数 人 不 知道 如 何 评估 系统 设计 面 
试 ， 他 们 如 何 做 好 准备 ? 这 就 像 你 在 玩 游 戏 而 不 知道 规则 。 


与 编程 面试 不 同 ， 系统 设计 问题 没有 标准 答案 ， 因 此 评估 过 程 更 为 主观 。 不 过 ， 作 为 一 个 面 
试 官 ， 我 仍然 会 有 一 些 东 西 。 


首先 ， 我 会 评估 设计 是 否 丨 的 有 效 。 虽 然 没 有 实现 来 验证 ， 根 据 工作 经 验 和 一 些 常 识 ， 如 果 
给 出 这 个 问题 ， 我 会 问 自己 是 否 会 尝试 提出 的 方法 。 多 数 情况 下 ， 很 明显 的 是 要 判断 设计 是 
否 有 问题 ， 我 只 是 用 一 些 例 子 来 挑战 候选 人 。 例 如 ， 如 果 我 要 求 他 检查 某 个 网 址 是 否 曾 经 被 
抓 取 过 ， 我 会 看 看 解决 方案 是 否 处 理 了 t.co/xyz 这 样 的 短 网 址 或 带 有 UTM 参数 的 网 址 。 这 
是 最 低 的 要 求 。 如 果 候 选 人 不 能 做 到 这 一 点 ， 我 就 不 会 深究 ， 或 者 我 可 能 会 另外 提出 一 个 问 
题 。 


其 次 ， 我 会 检查 可 行 性 。 有 些 候选 人 会 提出 只 在 理论 上 有 效 的 解决 方案 。 它 可 能 需要 无 限 的 
内 存 或 系统 是 不 是 很 复杂 。 无 论 如 何 ， 我 会 请 他 解决 这 个 问题 。 验 证 它 的 一 个 好 方法 是 ， 问 
自己 需要 多 少时 间 和 多 少 工 程 师 才能 实现 这 个 设计 。 就 个 人 而 言 ， 我 更 喜欢 轻松 简单 的 设 
计 。 如 果 你 在 一 两 个 星期 内 无 法 制作 原型 ， 我 可 能 会 要 求 你 简化 它 。 

有 时 ， 候 选 人 会 想 出 一 个 复杂 的 解决 方案 ， 需 要 大 量 的 数据 和 一 些 ML 组 件 和 流水 线 。 现 实 中 
很 难 实 现 ， 因 为 这 样 做 风险 很 大 。 你 不 想 花 一 年 时 间 在 这 个 未 经 证 实 的 想法 上 ， 那 可 能 就 是 
行 不 通 的 。 

第 三 ， 我 希望 候选 人 清楚 他 在 说 什么 。 更 具体 地 说 ， 我 想 确 保 他 知道 系统 应 该 以 特定 方式 设 
计 的 原因 ， 约 束 是 什么 ， 以 及 是 否 有 其 他 解决 方案 。 通 常 ， 设 计 问 题 会 模糊 描述 。 好 的 候选 
人 能 够 告诉 你 什么 是 假设 ， 以 及 如 何 将 这 个 设计 与 其 他 人 进行 比较 。 为 了 使 它 更 清楚 ， 问 问 
自己 什么 是 替代 解决 方案 ， 以 及 为 什么 以 这 种 方式 构建 系统 而 不 是 其 他 解决 方案 。 


在 下 面 的 部 分 中 ， 我 将 重点 介绍 一 些 实用 的 技巧 ， 并 使 用 它们 开始 准备 。 


如 何 准备 系统 设计 面试 


我 们 不 得 不 承认 ， 经 验 胜 过 一 切 。 这 就 是 为 什么 一 些 有 经 验 的 工程 师 根 本 不 需要 准备 。 但 
是 ， 你 还 可 以 做 很 多 事情 ， 来 做 出 重大 改变 。 


项 目 
如 果 你 离 你 的 面试 还 有 一 段 时 间 (至 少 6 个 月 ) ， 构 建 一 些 东西 是 绝对 值得 的 。 事 实 上 每 个 人 
都 可 以 参与 宏观 设计 ， 但 是 只 有 那些 捧 正 从 事 细节 工作 的 人 才能 把 所 有 的 事情 都 考虑 进去 。 


如 果 你 是 一 个 学 生 ， 你 可 以 参加 一 个 实习 ， 你 也 可 以 为 你 感 兴趣 的 项 目 工作 。 贡 献 一 些 开源 
项 目 也 是 一 个 好 主意 。 重 要 的 不 是 要 从 事 哪 个 项 目 ， 而 是 要 从 事 一 些 工作 。 


我 认为 这 很 重要 的 原因 是 ， 没 有 实际 工作 的 情况 下 ， 你 不 知道 你 的 设计 是 否 有 效 。 有 了 一 些 
实践 经 验 ， 你 很 快 就 会 意识 到 很 多 事情 很 难 实现 ， 但 乍 一 看 似乎 是 合理 的 。 例 如 ， 如 果 你 想 
要 检查 自 上 次 抓 取 以 来 ， 网 页 内 容 是 否 已 更 新 ， 并 依赖 HTML 是 否 保持 不 变 ， 则 会 发 现 许多 


网 页 的 内 容 相 同 ， 但 注释 ， 侧 边栏 等 内 容 被 改变 了 。 这 是 一 个 我 认为 不 适用 的 设计 ， 虽 然 这 
听 起 来 很 合理 。 


好 奇 心 


通常 对 一 切 都 很 好 奇 很 重要 。 一 个 不 错 的 做 法 是 选择 你 每 天 使 用 的 任何 产品 ， 比 如 Youtube ， 
想 想 你 将 如 何 从 头 开 始 设计 系统 。 

有 时 产品 可 能 会 非常 复杂 ， 你 也 可 以 设计 一 个 像 Facebook 朋友 推荐 的 功能 。 如 果 你 有 时 

间 ， 编 写 一 些 代码 来 实现 一 个 原型 是 一 个 加 分 项 。 但 重要 的 是 ， 你 应 该 试图 深入 细节 。 
尽管 系统 设计 问题 没有 任何 标准 答案 ， 但 你 仍然 可 以 搜索 如 何 实现 这 些 产品 /功能 。 将 其 与 你 
自己 的 设计 进行 比较 ， 了 解 其 差异 。 强 烈 推 着 High Scalability (高 可 扩展 性 ) ， 但 不 要 在 特 
定 工 具 上 花费 太 多 时 间 (请 参阅 “什么 不 重要 ”) 。 

注 : 一 个 窍门 是 ， 很 多 面试 官 喜欢 问 与 公司 有 关 的 设计 问题 。 例 如 ， 你 更 有 可 能 在 Google 面 
试 中 设计 Google 产品 /功能 。 情 况 并 非 总 是 如 此 ， 但 应 该 重视 公司 的 产品 或 类 似 产 品 。 


实践 


类 似 于 编码 问题 ， 你 还 需要 练习 系统 设计 面试 。 有 几 种 方法 。 你 可 以 做 一 些 谷歌 搜索 ， 看 看 
别人 会 如 何 处 理 相 同 的 问题 ， 并 与 你 的 设计 进行 比较 。 例 如 ， 系 统 设计 面试 问题 集 是 一 个 非 
常 详细 的 常见 问题 分 析 。 


更 好 的 方法 是 与 更 有 经 验 的 人 一 起 练习 。 如 果 你 有 在 工业 界 一 段 时 间 的 朋友 ， 那 太 好 了 。 向 
他 们 请 求 帮助 。 如 果 你 不 想 打 扰 他 们 ， 你 可 以 在 Gaino 上 模拟 面试 。 我 认为 互动 练习 总 是 比 
较 好 ， 因 为 整个 面试 过 程 比 考试 更 像 讨论 。 


什么 不 重要 


一 个 常见 的 错误 是 ， 许 多 人 对 特定 的 技术 过 于 重视 。 例 如 ， 他 们 在 如 何 使 用 AWS ， 如 何 配 置 
Google 云 平台 以 及 如 何 使 用 特定 的 Web 框架 上 花 了 很 多 时 间 。 


我 不 是 说 这 些 没 用 ， 其 实 这 些 绝 对 是 好 东西 。 然 而 ， 从 系统 设计 面试 的 角度 来 说 ， 我 认为 面 
试 官 A 


例如 ， 在 讨论 处 理 大 数据 时 ， 作 为 一 个 面试 官 ， 我 想 讨 论 的 是 ， 如 何 将 数据 分 发 到 多 台 机 器 
上 ， 如 何 将 它们 聚合 到 一 起 ， 以 及 如 何平 均 分 配 负 载 。 如 果 有 人 告诉 我 他 将 在 AWS 上 使 用 
Hadoop ， 我 会 要 求 更 多 的 细节 ， 他 最 终 还 是 会 回答 和 上面 的 所 有 问 人 o 


经 验 法 则 是 更 多 关注 每 个 工具 是 如 何 设计 的 ， 而 不 是 使 用 什么 工具 。 


这 疆 


/和 一 口 


ER 


系统 设计 面试 的 所 有 提示 很 难 在 一 章 内 完成 。 我 们 将 在 下 一 篇 文章 中 讨论 一 些 现场 策略 。 


如 果 本 章 只 有 一 件 事情 ， 那么 我 希望 现在 就 开始 着 手 。 大 多 数 人 花 太 多 的 时 间 来 规划 ， 但 他 
们 引 正 需要 的 是 做 东西 。 


顺便 提 一 下 ， 如 果 你 想得到 资深 的 面试 官 的 更 多 指导 ， 可 以 查看 Gainlo， 以 便 与 Google， 
Facebook 等 公司 的 工程 师 进 行 模拟 面试 。 


六 、 系 统 设计 面试 (第 二 部 分 ) 
原文 : Chapter 6: System Design Interviews (Part I|) 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 

这 是 我 们 的 “谷歌 面试 准备 系列 完整 指南 "的 第 六 章 。 


我 们 将 继续 讨论 上 一 章 的 系统 设计 面试 。 在 这 篇 文章 中 ， 我 们 将 主要 关注 一 些 实际 的 现场 策 
略 O 


假设 你 已 经 有 了 合理 的 设计 (如 果 没 有 ， 请 查看 我 们 之 前 的 章节 ) ， 这 里 的 想法 是 ， 如 何在 
系统 设计 面试 中 使 结果 最 优 。 如 何 清晰 地 传达 你 的 方法 既是 一 门 科学 ， 也 是 一 门 艺术 。 此 
外 ， 许 多 候选 人 都 太 急 于 炫 焰 自己 的 知识 ， 并 倾向 于 使 用 一 些 在 当前 情况 下 之 无 意义 的 流行 
语 。 我 们 将 在 本 章 中 解决 所 有 这 些 问题 和 危险 信号 。 


简单 的 概要 设计 


简单 ， 直 接 和 高 效 的 系统 站 的 会 胜利 。Unix 是 一 个 很 好 的 例子 ， 它 用 小 的 组 件 构建 ， 每 个 组 
件 只 做 一 件 事情 ， 但 是 使 它 变 得 完美 。 我 一 直 是 这 样 的 系统 的 铁杆 粉丝 ， 从 系统 设计 面试 的 
角度 来 看 ， 它 也 让 你 的 生活 更 轻松 


有 些 俱 的 想 炫 焰 自 己 可 以 设计 一 些 复杂 的 东西 ， 只 是 从 一 个 过 于 复杂 的 系统 开始 。 这 是 完 
全 错误 的 心态 。 


面试 官 ee 酪 的 技术 ， 而 是 你 能 否 设 计 一 个 可 行 的 系统 。 我 见 过 这 么 
多 的 候选 人 ， 在 不 考虑 这 个 问题 的 情况 下 ， 不 停 地 说 各 种 流行 语 。 你 知道 吗 ， 我 认为 这 些 流 
行 语 只 是 废话 ， 请 在 面试 中 忘记 。 


下 


推荐 的 方法 是 从 尽 可 能 简单 的 事情 开始 ， 并 尝试 设计 一 个 概要 解决 方案 。 如 果 你 被 要 求 设计 
Google 自动 补 全 系统 ， 你 最 开始 可 以 为 带 有 指定 前 级 的 最 常见 的 查询 提 建 议 ， 以 便 你 只 需要 
一 个 日 志 处 理 器 和 一 个 建议 服务 器 。 


当然 ， eg ele pa ， 比 如 有 时 我 们 需要 个 性 化 ， 数 据 可 能 会 超出 
Sen 么 我 们 可 以 考虑 问题 的 优先 度 并 逐一 解决 。 千 万 不 要 让 问题 过 度 复 杂 ， 而 让 自 
pany a 


不 要 赶 时 间 


编程 面试 中 的 一 个 常见 陷阱 就 是 ， 在 没有 多 少 考虑 和 讨论 的 情况 下 开始 编程 。 系统 设计 面试 
中 也 有 同样 的 问题 。 


请 记 住 ， 没 有 人 会 期 望 你 在 几 秒 钟 内 就 能 设计 出 一 个 方案 。 将 整个 面试 过 程 视 为 讨论 而 不 是 
考试 。 如 果 是 讨论 ， 会 鼓励 你 把 想法 说 出 来 。 你 不 需要 快速 做 出 解决 方案 ， 但 是 你 可 以 谈论 
你 如 何 看 待 这 个 问题 ， 你 现在 想 要 解决 什么 问题 ， 以 及 你 被 什么 卡 住 了 。 


作为 一 名 面试 官 ， 我 会 雇佣 的 候选 人 通常 会 使 整 寸 程 非常 舒适 。 这 完全 是 一 个 讨论 过 
程 ， 就 像 我 们 一 起 在 研究 这 个 问题 。 他 们 不 会 假装 知道 一 切 。 相反 ， pe 
在 纠结 什么 ， 以 及 他 们 如 何 解 决 问题 。 


权衡 


没有 任何 一 种 解决 方案 在 所 有 情况 下 都 能 完美 运行 ， 这 意味 着 你 应 该 非常 清楚 你 设计 的 优 缺 
点 。 


请 记 住 ， 你 的 解决 方案 高 度 依赖 于 限制 ， 可 以 是 显 式 的 也 可 以 是 隐 式 的 。 显 式 的 限制 是 面试 
官 设 定 的 限制 ， 就 像 你 只 有 一 台 机 器 一 样 。 但 是 ， 大 多 数 人 不 重视 隐 式 的 限制 。 


很 多 时 候 我 们 只 是 在 不 知情 的 情况 下 做 出 假设 。 揭 开 这 些 隐藏 的 假设 可 以 帮助 你 更 好 地 理解 
你 的 解决 方案 。 例 如 ， 时 间 和 空间 的 权衡 是 设计 问题 的 共同 主题 。 在 某 些 时 候 ， 可 以 慢 一 

点 ， 但 是 可 以 节省 很 多 内 存 。 如 果 你 有 明确 的 理由 ， 速 度 在 特殊 情况 下 并 不 重要 ， 那 么 你 的 
设计 是 合理 的 。 


好 的 做 法 是 考虑 一 下 其 他 方法 ， 以 及 为 什么 你 选择 的 方法 更 好 。 通 常情 况 下 ， 更 好 的 原因 是 
由 于 一 些 限 制 和 假设 。 所 以 验证 这 些 假设 是 很 重要 的 。 在 面试 中 改变 你 的 想法 是 完全 没 问 题 
的 。 事 实 上 ， 这 是 一 个 好 兆头 ， 你 正在 考虑 所 有 情况 。 


国友 区 三 疝 
数量 


准 


~ 


很 多 人 很 疑惑 ， 是 否 考虑 可 扩展 性 以 及 是 否 将 数据 分 发 到 多 台 机 器 。 有 时 你 不 会 知道 一 台 机 
器 是 否 足 够 ， 除 非 做 一 些 数 学 运算 。 例如 ， 在 上 一 个 问题 (Google 自动 补 全 ) 中 ， 如 果 你 拥 
有 所 有 搜索 查询 的 粗略 数量 ， 则 应 该 能 够 告诉 你 需要 多 少 内 存 ， 以 及 将 所 有 索引 放 在 内 存 中 
是 否 可 行 。 

换 句 话说， 有 时 候 无 论 要 不 要 扩展 ， 面 试 官 都 不 会 告诉 你 。 你 可 以 通过 合理 的 假设 得 出 答 
案 ， 并 进行 计算 。 


这 是 非常 重要 的 一 点 ， 因 为 在 丨 实 的 项 目 中 ， 优 秀 的 工程 师 正在 以 这 种 方式 做 出 很 多 决定 。 
这 当然 需要 一 些 练习 。 


有 一 些 现 有 的 库 


一 个 常见 的 错误 就 是 ， 许 多 候选 人 都 想 告 诉 我 “有 些 库 可 以 做 这 个 "*， 作 为 不 详细 设计 这 个 功能 
的 借口 。 


面试 官 是 否 知道 现 有 的 库 ? 当然 。 但 是 ， 要 求 候选 人 设计 特定 的 功能 还 有 很 多 原因 : 


。 现 有 的 库 可 能 做 得 不 好 。 例 如 ， 很 多 库 都 能 够 从 网 页 中 提取 日 期 信息 ， 但 是 没有 一 个 能 
够 完美 的 实现 它 。 事 实 上 ， 在 很 多 公司 公司 中 ， 这 个 特性 本 身 就 需要 一 个 大 的 团队 。 
e 考虑 到 约束 的 特殊 问题 ， 可 能 会 有 更 好 的 解决 方案 。 
。 最 后 ， 每 个 设计 问题 都 有 现 有 的 系统 ， 但 讨论 这 个 问题 还 是 有 意义 的 。 
但 是 ， 我 并 不 是 说 在 系统 设计 面试 中 ， 不 应 该 使 用 任何 现 有 的 工具 。 设 计 问 题 要 关注 重点 。 
如 果 它 是 一 个 常见 的 工具 ， 或 者 与 整体 问题 相 比 毫 无 意义 的 东西 ， 那 么 使 用 现 有 的 工具 是 
全 正确 的 。 


bn 


再 次 说 明 ， 在 系统 设计 面试 中 ， 经 验 胜 过 一 切 。 如 果 你 对 这 个 问题 毫 无 经 验 ， 要 想 出 合理 的 
设计 是 不 容易 的 。 

正如 我 刚才 所 说 ， 如 果 你 有 足够 的 时 间 ， 我 鼓励 你 在 闲暇 时 间 做 一 些 事 情 

另外 ， 我 还 建议 与 经 验 丰 富 的 工程 师 讨 论 。 如 果 你 从 来 没有 做 过 这 样 的 讨论 ， 你 怎么 能 期 望 
自己 在 面试 中 表现 出 色 呢 ? 即使 是 本 章 的 技巧 ， 你 也 需要 大 量 的 练习 ， 不 要 期 望 在 第 一 次 系 
统 设 计 面 试 中 掌握 所 有 的 技巧 。 


顺便 提 一 下 ， 如 果 你 想得到 资深 的 面试 官 的 更 多 指导 ， 可 以 查看 Gainlo， 以 便 与 Google， 
Facebook 等 公司 的 工程 师 进行 模拟 面试 。 


七 、 电话 加 会 
原文 : Chapter 7: Phone Interviews 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 
这 是 我 们 的 “谷歌 面试 准备 系列 完整 指南 "的 第 七 章 。 


如 果 你 正在 阅读 以 前 的 章节 ， 那 么 你 应 该 已 经 清楚 了 解 如 何 准备 Google 面试 。 通 常情 况 下 ， 
如 果 你 已 经 通过 简历 页 面 ， 第 一 步 是 电话 面试 。 

尽管 电话 面试 比 一 般 的 现场 面试 要 容易 一 些 ， 但 大 多 数 人 都 被 淘汰 。 当 然 ， 你 应 该 注意 几 个 
危险 信号 ， 但 更 重要 的 是 ， 一 些 非常 简单 和 实用 的 提示 可 以 显 着 提高 你 的 通过 率 。 我 将 在 本 
章 中 解决 所 有 这 些 问 题 。 


把 它 当 作 现 场面 试 


如 果 你 曾经 参加 过 像 谷 歌 ，Uber，Airbnb 等 许多 顶级 公司 的 面试 ， 你 很 快 就 会 意识 到 电话 面 
试 过 程 有 多 么 相似 。 

一 般 来 说 ， 有 两 种 类 型 的 电话 面试 - 非 技 术 面 试 和 技术 面试 。 非 技术 性 面试 通常 由 人 力 资 源 部 
门 进行 。 谈 话 主要 是 关于 你 的 背景 和 激情 。 

技术 面试 是 本 章 我 们 所 关注 的 内 容 。 除 了 不 是 面对面 的 交流 之 外 ， 你 可 以 期 望 它 和 现场 面试 
完全 一 样 。 通 常 ， 你 需要 通过 Google Doc 等 代码 共享 工具 编写 代码 ， 有 些 公司 其 至 可 能 需要 
编译 代码 。 

以 Google 电话 面试 为 例 。 这 大 概 是 45 分 钟 ， 通 常会 问 两 个 问题 。 你 一 定 会 为 其 中 的 至 少 
一 个 编写 代码 。 

在 电话 面试 中 不 太 可 能 有 系统 设计 问题 ， 所 以 我 的 建议 只 是 把 它 当 作 现 场 编程 面试 。 而 已 。 
你 不 需要 准备 特定 于 手机 屏幕 的 问题 。 事实 上 ， 很 多 面试 官 在 电话 和 现场 面试 中 都 会 提出 同 
样 的 问题 。 

因此 ， 如 果 你 认为 电话 面试 技术 性 较 差 且 较 容易 ， 你 可 能 需要 调整 你 的 期 望 。 准备 好 接受 非 
常 技术 性 的 电话 面试 。 即 使 事情 变 得 比 预期 更 容易 ， 这 实际 上 是 一 件 好 事 。 


擦 亮 你 的 工具 


试 在 站 正 的 比赛 之 前 熟悉 赛场 。 同 样 的 道理 ， 如 果 你 在 面试 之 前 从 未 使 
过 代码 共享 工具 ， 那 么 你 肯定 会 感到 不 舒服 ， 这 可 能 会 影响 你 的 表现 。 


知道 要 使 用 什么 工具 。 搜 索 Google 或 Glassdoor， 或 只 是 询问 招聘 


好 消息 是 ， 你 可 以 很 容易 
是 否 需 要 编译 。 经 验 法 则 是 去 除 尽 可 能 多 的 意 想不到 的 事情 。 


人 员 。 你 也 应 该 检查 


下 一 步 很 清楚 。 像 往常 一 样 练习 编程 问题 ， 但 在 特定 工具 上 编写 代码 。 有 时 可 能 需要 一 些 时 
间 才 能 适应 ， 例 如 谷歌 面试 官 喜欢 分 享 Google Doc， 没 有 缩 进 ， 自 动 不 全 或 高 亮 显 示 。 


很 多 人 通常 都 会 忽略 这 一 点 ， 因 为 他 们 认为 这 是 微不足道 的 ， 没 用 的 。 不 过 ， 我 想 说 的 是 细 
节 惧 的 很 重要 。 干 净 而 易 读 的 代码 可 以 芙 正 令 面试 官 感到 震惊 。 另 外 ， 如 果 你 退 一 步 ， 熟 悉 
这 个 工具 并 不 会 占用 太 多 的 时 间 ， 它 只 会 对 你 有 好 处 。 


把 想 NIN 法 说 出 来 


ee 点 ， 但 在 电话 面试 中 ， 把 想法 说 出 来 更 为 重要 。 每 个 人 都 知 
道 手 机 屏幕 上 的 沟通 不 太 顺 畅 ， 但 是 很 少 有 个 正 做 出 改进 


如 果 你 认为 面试 是 一 个 讨论 ， 确 保 每 个 人 都 在 同一 个 页 面 上 是 很 重要 的 。 这 里 的 目标 不 是 消 
除 沉默 ， 而 是 让 面试 官 知 道 你 的 想法 。 


最 大 的 好 处 就 是 减少 不 必要 的 误会 。 当 我 看 到 一 个 候选 人 沉默 了 一 会 几时 ， 我 想 知道 他 是 否 
完全 不 知道 ， 或 者 他 误解 了 这 个 问题 ， 也 许 他 正 走 在 正确 的 轨道 上 ， 几 乎 就 在 那里 。 如 果 我 
知道 他 在 想 什么 ， 当 事情 不 正确 时 ， 我 一 定 会 提供 帮助 。 另外， 最 终 的 代码 只 是 我 们 评估 的 
一 部 分 ， 讨 论 过 程 和 候选 人 如 何 分 析 问 题 同样 重要 。 


这 里 有 几 个 例子 : 


。 谈 谈 你 的 整体 策略 。 你 想 从 一 些 例子 开始 吗 ? 你 是 否 正在 解决 问题 的 一 个 简单 版 本 ? 你 
打算 使 用 动态 规划 吗 ? 

e 你 关心 什么 了 你 是 否 担 心 使 用 太 多 的 内 存 或 算法 太 慢 ? 

。 你 将 在 以 后 解决 什么 问题 ? 例如 ， 你 知道 当前 的 算法 不 处 理 一 个 特定 的 情况 ， 提 前 提 到 
这 一 点 。 

e。 你 卡 在 什么 上 了 ? 当 你 发 现 自己 没有 取得 进展 时 ， 说 清楚 你 的 问题 。 


你 也 会 意识 到 ， 这 些 问题 可 以 帮助 你 更 好 地 理解 你 在 做 什么 。 有 时 你 可 能 会 发 现 ， 自 己 只 是 
在 没有 任何 进展 的 情况 下 在 白板 上 涂鸦 ， 问 问 你 自己 现在 想 要 解决 什么 问题 。 


义 通 清楚 


ee 
进行 帮助 ， 而 声音 沟通 是 电话 面试 的 唯一 方法 。 


很 多 同事 不 喜欢 进行 电话 面试 ， 这 主要 是 因为 沟通 问题 。 清 楚 的 沟通 可 以 使 面试 官 有 更 好 的 
体验 。 这 里 有 几 个 提示 : 


。 慢 慢 说 ， 说 清楚 。 当 人 们 紧张 时 ， 人 们 倾向 于 说 得 更 快 ， 这 在 手机 屏幕 上 更 为 常见 
为 这 通常 是 第 一 次 技术 性 面试 。 通 常 ， 当 我 难以 理解 候选 人 的 时 候 ， 给 我 的 印象 是 他 脑 
子 里 不 清楚 。 只 要 放 慢 速度 ， 不 要 急于 求 成 。 这 也 可 以 让 你 听 起 来 更 有 信心 。 

e 使 用 速记 来 帮助 。 这 是 一 个 面对面 讨论 的 "技巧 ”。 不 要 把 它 写 成 文字 稿 。 所 有 你 需要 的 是 
突出 重点 。 例 如 ， 如 果 你 的 解决 方案 包含 三 个 步 又， 只 需 列 出 概要 。 有 些 人 关心 速度 。 
请 记 住 ， 面 试 速度 慢 的 人 在 沟通 或 打字 方面 不 是 很 慢 ， 但 是 在 思考 解决 方案 和 完成 代码 
方面 却 很 慢 (详细 的 讨论 请 查阅 这 篇 文章 ) 。 实 际 上 ， 用 一 些 文字 来 减少 不 必要 的 来 回 
讨论 ， 最 终 可 以 节省 你 的 时 间 。 

。 找 一 个 安静 的 环境 。 你 会 惊讶 于 有 多 少 人 在 恶劣 的 环境 中 进行 了 电话 面试 。 背 景 噪音 ， 

信号 差 和 意外 中 断 是 我 遇 到 的 三 件 事情 。 有 时 候 会 让 我 发 疯 。 

所 有 这 些 提 示 都 不 应 该 记 住 ， 因 为 在 面试 中 你 一 定 会 忘记 所 有 这 些 提 示 。 你 应 该 做 的 就 
是 练习 它们 。 除 非 你 继续 这 样 做 了 一 段 时 间 ， 否 则 你 不 会 觉得 自在 。 同 样 ， 除 非 你 从 第 

一 天 起 尝试 改进 ， 否 则 你 无 法 沟通 清楚 。 


不 要 作 商 


这 是 电话 面试 中 最 大 的 危险 信号 。 有 些 人 使 电话 面试 更 像 是 “小 组 面试 "。 有 时 我 可 以 清楚 地 
听 到 与 别人 的 低语 和 讨论 。 我 并 不 认为 这 一 点 值得 谈论 太 多 ， 我 唯一 要 说 的 是 ， 面 试 官能 够 
比 预期 更 容易 发 现 作 环行 为 。 


CU 


我 认为 本 章 最 重要 的 技巧 之 一 是 你 应 该 尽早 练习 沟通 。 大 多 数 人 没有 认识 到 这 一 点 的 重要 
性 ， 这 可 能 是 一 个 让 你 脱颖而出 的 技巧 。 
不 要 指望 在 几 天 内 有 任何 大 的 改进 。 耐心 等 待 ， 随 着 时 间 的 推移 ， 你 会 惊讶 于 你 今天 的 水 


顺便 提 一 下 ， 如 果 你 想得到 资深 的 面试 官 的 更 多 指导 ， 可 以 查看 Gainlo， 以 便 与 Google ， 
Facebook 等 公司 的 工程 师 进 行 模拟 面试 。 


入 、 现场 面试 


原文 : Chapter 8: On-site Interviews 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 
这 是 我 们 的 “谷歌 面试 准备 系列 完整 指南 "的 第 八 章 。 


在 讨论 电话 面试 之 后 ， 我 将 在 本 章 中 谈论 现场 面试 。 对 于 大 多 数 公司 来 说 ， 这 是 你 将 要 进行 
的 "最 终 测试 "， 一 旦 你 通过 了 ， 你 会 得 到 这 个 雇用 。 


与 此 同时 ， 现 场面 试 也 是 最 艰苦 的 一 步 ， 你 将 在 一 天 内 有 多 场面 试 。 毫 无 疑问 ， 现 场面 试 在 
总 体 上 更 具 挑 战 性， 许多 人 站 的 害怕 它 。 我 将 在 本 章 中 解决 所 有 这 些 问 题 ， 并 像 以 前 一 样 提 


供 非 常 实用 的 技巧 。 


现 , 场 加 全 [ 式 流程 


没有 充分 理解 规则 ， 你 永远 无 法 赢得 一 场 比赛 。 以 Google 为 例 。 在 那 一 天 ， 你 将 总 共 进 行 四 
A eG 二 OA 一 个 
贤 正 的 面试 ， 因 为 你 没有 被 评估 ， 这 只 是 一 个 与 Google 员工 聚会 的 机 会 。 


在 这 四 个 编程 面试 中 ， 至 少 有 一 个 是 系统 设计 面试 。 人 ， 并 与 面 
试 官 进行 激烈 的 讨论 。 面 试 形式 与 电话 面试 差不多 。 通 常 将 在 45 分 钟 内 询问 两 个 问题 ， 并 且 
需要 可 靠 的 代码 。 所 以 要 为 非常 辛苦 的 一 天 做 好 准备 。 

很 多 人 对 评估 过 程 也 很 好 奇 。 面 试 结 束 后 ， 每 位 面试 官 都 会 写 下 一 份 报 告 ， 其 中 包含 
钟 的 所 有 细节 和 讨论 ， 包 括 你 的 代码 。 该 报告 可 以 非常 详细 地 说 明 ， 在 每 个 部 分 花费 
时 间 ， 并 且 在 提示 之 后 你 的 反应 将 被 包括 在 内 。 招 聘 委员 会 将 根据 所 有 这 些 报告 进行 
策 o 


这 个 过 程 对 于 Google 来 说 是 独一无二 的 ， 而 像 Facebook，Airbnb 和 Uber 等 大 多 数 顶 级 公 
司 都 有 非常 相似 的 流程 。 


电话 面试 VS 现场 面试 


整个 过 程 或 多 或 少 是 一 样 的 ， 所 以 你 不 可 能 对 任何 事情 感到 惊讶 。 一些 主要 差异 和 包括: 


面对面 交流 意味 着 整个 过 程 可 以 更 加 顺畅 ， 但 同时 很 多 人 更 容易 紧张 。 如 果 你 可 以 和 你 的 朋 
友 进 行 一 些 面对面 的 模拟 面试 ， 这 可 能 会 非常 有 帮助 。 问题 稍微 困难 一 些 。 你 仍然 有 相同 类 
型 的 编程 问题 ， 然 而 ， 最 常见 的 误解 是 ， 它 会 比 电话 面试 问题 困难 得 多 。 我 会 尽快 详细 讨 
论 。 至 少 需要 一 场 系统 设计 面试 。 


对 于 现场 面试 中 我 应 该 练 什么 样 的 问题 ， 我 只 想 说 就 像 电 话 面试 一 样 (系统 设计 面试 除 
外 ) 。 你 并 不 需要 找到 现场 面试 的 具体 问题 ， 事 实 上 ， 在 这 两 种 情况 下 都 会 提出 很 多 问题 。 


“问题 比 我 起 象 的 要 容易 得 多 ” 


这 是 现场 面试 中 最 常见 的 评论 。 但 是 ， 这 也 是 大 多 数 人 不 能 通过 面试 的 原因 。 让 我 详细 解释 
一 下 o 


最 大 的 误区 之 一 是 Google 的 现场 为 什么 比 电话 为 什么 要 困难 得 多 。 当然 ， 有 时 候 可 能 会 有 
一 些 难 题 。 但 总 的 来 说 ， 这 只 是 稍微 困难 一 点 。 许 多 面试 官 仍 然 会 问 如 2-sum 的 问题 ， 来 获 
得 候选 人 的 最 初 想 法 。 
在 Gaino 上 ， 很 多 用 户 抱怨 说 模拟 面试 太 简单 了 了， 尽管 他 们 没有 通过 。 他 们 不 能 相信 问题 
是 “容易 的 ”。 但 实际 上 ， 面 试 官 正在 将 类 似 的 问题 用 于 申 正 的 面试 。 
让 我 告诉 你 一 件 事 。 谷歌 面试 中 最 困难 的 部 分 (与 其 他 公司 一 样 ) 不 是 提出 解决 方案 。 很 多 
人 可 以 在 一 定 程度 上 解决 这 个 问题 。 但 要 获得 好 成 绩 ， 你 需要 : 

e@ 拿 出 最 佳 的 解决 方案 

e 编程 干净 和 无 错 的 代码 

e@ 在 时 间 限 制 下 完成 这 两 件 事 情 


第 二 点 和 第 三 点 是 最 具 挑 战 性 的 部 分 ， 大 多 数 候选 人 由 于 这 两 个 原因 而 失败 。 许多 人 声称 问 
题 比 他 们 想象 的 要 容易 得 多 ， 但 他 们 仍然 没有 快速 地 提供 无 错 代码 。 


从 面试 官 的 角度 来 看 ， 提 出 没有 人 能 解决 的 问题 是 没有 意义 的 。 为 了 评估 候选 人 ， 我 们 需要 
看 到 分 析 过 程 ， 代 码 以 及 他 /她 能 够 多 快 解决 问题 。 


任务 : 


e 更 多 关注 “基本 ”问题 而 不 是 超级 难题 。 只 要 在 Glassdoor 上 对 Uber 面试 问题 进行 一 点 搜 
索 ， 就 可 以 了 解 哪些 类 型 的 问题 很 受 欢迎 。 你 很 快 就 会 意识 到 ， 他 们 并 不 像 大 多 数 人 所 
想 的 那样 艰难 。 

。 练习 时 要 特别 注意 编程 。 为 每 个 问题 写 下 可 靠 的 代码 并 跟踪 时 间 。 


白板 


对 于 大 多 数 公司 ， 你 需要 在 现场 面试 的 白板 上 编写 代码 。 就 个 人 而 言 ， 我 觉得 这 很 不 舒服 ， 
甚至 与 编写 代码 共享 工具 相 比 。 


一 个 问题 是 插入 非常 困难 。 通常 情况 下 ， 你 会 发 现 你 在 开始 时 缺少 一 个 简单 的 检查 ， 你 需要 
插入 一 个 小 的 if 块 。 但 是 ， 0 。 同样 ， 如 果 你 的 代码 是 多 余 
的 ， 你 不 能 通过 复制 和 粘贴 来 节省 时 间 。 


如 果 你 之 前 没有 这 样 做 ， 只 是 试 着 在 一 张 纸 上 写 代码 ， 你 很 快 就 会 发 现 它 很 粮 糕 。 因 此， 经 
验 法 则 是 提前 练习 。 是 的 ， 你 需要 在 现场 面试 之 前 在 白板 上 练习 编码 。 


和 马 朱 上 买 一 个 非常 便宜 的 白板 ， 或 者 至 少 你 应 该 在 纸 上 练 习 编 码 。 同样 ， 理 念 是 
可 能 接近 面试 ， 因 为 你 不 想 在 这 一 天 感到 惊讶 。 


这 里 有 几 个 提示 : 


写 之 前 要 仔细 考虑 。 很 难 撤消 你 的 代码 ， 确 保 每 一 行 代码 都 是 你 想 要 的 是 很 重要 的 。 这 实际 
上 是 一 个 非常 好 的 做 法 。 许多 人 倾向 于 在 思考 时 进行 编码 ， 这 从 来 没有 奏效 。 事先 要 有 清醒 
的 想法 。 工整 的 写作 。 我 不 会 推荐 连 笔 。 作为 一 个 面试 官 ， 我 经 常 发现 它 是 无 法 辨认 的 。 
有 些 人 可 能 会 认为 可 以 节省 一 些 时 间 。 但 是 ， 你 将 花 更 多 时 间 来 解释 代码 。 加速 的 最 好 的 策 
略 是 要 有 清醒 的 思路 ， 确 保 顺 利 实现 。 


沟通 
我 在 之 前 的 文章 中 多 次 提 到 过 它 ， 我 只 想 在 这 里 强调 一 下 几 点 。 


6 0 程 ， 在 现场 面试 中 更 是 如 此 。 这 与 考试 完全 不 同 ， 因 为 你 需要 与 
面试 官 保持 沟通 。 把 这 个 过 程 当 作 一 个 正常 的 讨论 ， 与 你 们 的 同事 在 一 起 讨论 同样 的 问 
题 。 

。 把 想法 说 出 来 。 谈 论 你 脑海 中 的 任何 事情 ， 在 讨论 之 前 你 不 需要 有 任何 具体 的 想法 。 对 
你 的 话 要 小 心 谨 懂 ， 但 对 代码 更 加 谨 惯 。 大 多 数 人 采取 相反 的 做 法 而 没有 通过 面试 。 

。 随意 谈 谈 你 卡 在 了 什么 地 方 。 面 试 官 真 的 很 乐意 通过 给 你 提示 或 告诉 你 你 不 是 在 正确 的 
方向 来 帮助 你 。 不 要 担心 暴露 你 的 弱点 ， 即 使 你 不 承认 也 不 会 有 任何 进展 。 相 反 ， 放 宽 

态 ， 面 试 过 程 将 会 更 加 愉快 。 


> 


~ 


中 


结 


心 
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同样 ， 不 要 指望 自己 能 够 立即 完成 所 有 这 些 技巧 。 面试 前 你 一 定 需 要 很 多 练习 。 换 名 话说 ， 
知道 这 些 建 议 没 有 任何 作用 ， 除 非 你 站 的 能 遵循 它们 。 

我 不 会 涉及 太 多 非 技 术 性 的 问题 和 提示 ， 我 将 用 一 个 完整 的 章节 来 解决 所 有 这 些 问 题 很 快 
阁 请 关注 |! 


顺便 提 一 下 ， 如 果 你 想得到 资深 的 面试 官 的 更 多 指导 ， 可 以 查看 Gainlo， 以 便 与 Google， 
Facebook 等 公司 的 工程 师 进 行 模拟 面试 。 


八 、 现 场面 试 
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九 、 非 技术 问题 


原文 : Chapter 9: Non-technical Questions 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 

自豪 地 采用 谷歌 翻译 

这 是 我 们 的 “谷歌 面试 准备 系列 完整 指南 "的 第 九 章 。 


如 何在 编程 面试 中 准备 非 技术 性 问题 ， 是 我 收 到 的 最 常见 的 问题 之 一 。 大 多 数 人 不 知道 该 怎 
么 准备 ， 甚 至 不 知道 会 问 到 什么 类 型 的 问题 。 

一 般 来 说 ， 非 技术 性 问题 只 占 面 试 的 一 小 部 分 。 然 而， 如 果 面 试 官 抓 住 任何 危险 信号 ， 它 可 
以 “ 杀 掉 "你 。 一 个 例子 是 文化 适应 。 趋势 是 公司 正在 更 多 地 关注 文化 适应 ， 对 于 像 Google ， 

Airbnb 和 初创 公司 这 样 的 大 公司 来 说 都 是 如 此 。 


在 本 章 中 ， 我 将 涵盖 一 切 非 技术 性 的 内 容 ， 包 括 自我 介绍 ， 文 化 适应 ， 向 面试 官 提问 等 。 这 
些 不 仅 是 可 以 帮助 你 做 好 准备 的 技巧 ， 也 是 一 个 很 好 的 做 法 ， 可 以 让 你 知道 你 是 否 合适 。 
面试 官 在 寻找 什么 ? 


如 果 编 程 面试 用 于 评估 应 聘 者 的 技术 技能 ， 面 试 官 通过 询问 非 技 术 性 问题 寻找 什么 ?我 将 总 
结 以 下 三 个 方面 。 


人 ， 我 们 都 在 和 人 打交道 。 不 管 候 选 人 有 多 强 ， 面 试 官 
这 个 人 一 起 工作 吗 ? 这 确实 是 一 个 非常 主观 的 问题 ， 但 通 
以 得 到 一 些 想法 。 


通常 会 自问 一 个 简单 的 问题 - 我 想 和 
过 与 候选 人 交谈 和 讨论 ， 面 试 官 可 


例如 ， 有 时 我 发 现 候选 人 对 公司 和 产品 非常 热情 ， 这 可 能 会 影响 “得 分 "。 


文化 适应 


本 章 稍 后 会 讨论 这 个 问题 。 但 总 之 ， 每 个 公司 都 有 自己 的 文化 ， 评 估 候 选 人 是 否 合适 是 非常 
重要 的 。 每 种 文化 都 有 其 优点 和 缺点 ， 因 此 都 是 关于 匹配 (就 像 约 会 一 样 ) 。 


加 分 和 危险 信号 


编程 问题 永远 不 能 涵盖 一 个 人 的 每 一 个 方面 。 通 过 讨论 过 去 的 经 验 ， 候 选 人 感 兴趣 的 领域 ， 
面试 官 实 际 上 是 寻找 任何 加 分 或 危险 信号 。 

例如 ， 如 果 你 以 前 的 经 验 是 高 度 相 关 的 》 这 绝对 是 一 个 优势 对 于 应 届 生 来 说 在 一 家 顶级 
公司 实习 可 能 会 给 面试 者 留 下 积极 的 印象 O 另 一 方面 9 如 果 你 在 以 前 的 公司 只 呆 了 三 个 月 
面试 官 可 能 会 问 你 更 多 的 问题 。 


自我 介绍 
“介绍 你 自己 "可 能 是 唯一 确定 的 问题 ， 没 有 理由 不 准备 。 在 好 的 和 不 好 的 介绍 之 间 没 有 明确 的 
界限 ? 但 事先 做 好 一 些 准备 工作 肯定 会 对 你 有 好 处 o 事实 上 9 这 不 会 占用 你 太 多 的 时 间 


黄金 法 则 是 清晰 简明 。 首 先 ， 列 出 你 睦 正 想 要 在 你 的 介绍 中 突出 显示 的 几 点 ( 少 于 三 点 ) 。 
这 可 能 是 你 过 去 的 项 目 之 一 ， 或 者 你 赢得 的 一 些 编程 比赛 。 其 次 ， 在 1-2 分 钟 内 压缩 所 有 这 
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长 


你 不 需要 履 盖 尽 可 能 多 的 细节 。 如 果 面 试 官 想 知 道 更 多 ， 他 们 会 问 。 一 个 常见 的 错误 是 过 度 
推销 自己 。 长 时 间 的 介绍 不 仅 会 让 面试 官 厌烦 ， 而 且 会 缩短 你 的 编程 问题 的 时 间 。 


另 一 个 常见 的 错误 是 我 所 说 的 “ 太 模 糊 ”。 往往 不 是 因为 候选 人 沟通 不 好 ， 而 是 因为 介绍 有 很 多 
细节 ， 没 有 相关 的 背景 的 人 不 能 理解 。 找 到 一 个 对 你 的 工作 不 太 了 解 的 工程 师 朋友 ， 测 试 他 / 


她 是 否 能 理解 你 的 介绍 。 


这 里 的 另 一 个 提示 是 相关 性 。 强 烈 建议 对 每 个 公司 有 不 同 的 介绍 。 你 想 表明 你 能 胜任 这 个 职 
位 ， 因 为 你 有 相关 的 经 验 。 这 绝对 不 是 必需 的 ， 但 是 如 果 你 有 的 话 会 是 一 个 加 分 。 如 果 你 以 
前 的 所 有 项 目 都 是 完全 不 相关 的 (例如 ， 你 在 硬件 上 工作 ， 但 是 在 寻找 一 个 软件 的 职位 ) ， 
那么 就 把 它 保 持 简 洁 。 所 有 的 细节 都 谈论 一 个 完全 不 相关 的 项 目 ， 这 不 能 再 糟糕 了 。 


文化 适应 

现在 ， 我 们 来 讨论 一 下 这 个 趋势 词 "文化 适应 "”。 近 几 年 你 可 能 会 一 遍 又 一 遍地 听 说 文化 适应 ， 
大 多 数 公司 开始 比 以 往 更 关心 它 o 我 认为 这 不 只 是 一 个 炒作 我 想 说 每 个 人 都 应 该 考虑 一 
下 ， 这 对 公司 和 候选 人 都 是 如 此 。 


那么 文化 适应 什么 ?“ 文 化 适应 是 一 个 难以 定义 的 概念 ， 但 每 个 人 都 知道 什么 时 候 缺 少 这 个 概 
念 。" 每 个 公司 ， 无 论 多 大 ， 都 有 一 定 的 规范 和 信念 ， 每 个 人 都 遵循 。 这 不 是 一 个 强迫 人 们 以 
同样 的 方式 行事 的 具体 规则 ， 也 不 是 人 们 从 不 行动 的 口号 。 这 就 是 为 什么 文化 是 定义 它 的 最 
好 的 术语 。 


最 着 名 的 例子 是 Facebook 的 “行动 迅速 和 打破 常规 "。 核 心 的 信念 是 尽早 测试 ， 来 避免 过 度 工 
程 。 你 可 以 通过 Google 深入 了 解 这 一 点 。 关 键 在 于 面试 官 有 责任 评估 候选 人 是 否 里 正 符合 这 
种 文化 和 这 并 不 容易 > 但 从 所 有 的 讨论 中 9 人 们 仍然 可 以 得 到 一 些 想法 各 例如 在 系统 设计 
面试 中 ， 面 试 官 肯定 知道 你 是 否 倾向 于 过 度 工 程 。 


另 一 个 例子 是 Airbnb。 通 常情 况 下 ， 你 将 有 一 个 完全 集中 于 文化 适应 的 简短 面试 。 你 会 被 问 
到 你 的 产品 经 验 ， 为 什么 你 想 加 入 Airbnb， 你 也 可 以 谈论 你 的 职业 目标 。 如 果 你 不 是 真 的 相 
信 Airbnb 的 使 命 ， 只 是 瞄准 加 薪 ， 我 怀疑 你 是 否 会 得 到 录用 。 


双向 选择 
“如 何 让 自己 适应 公司 的 文化 9?" 显然 是 一 个 错误 的 问题 。 你 不 需要 适应 文化 ， 你 应 该 评 信和 广 
化 。 


最 大 的 误解 是 认为 面试 是 考试 。 但 是 ， 我 认为 这 是 一 个 双向 的 选择 。 面 试 过 程 中 ， 考 生 应 同 
时 对 面试 官 和 公司 进行 评估 。 在 与 公司 工作 的 人 交谈 之 后 ， 你 可 能 会 有 完全 不 同 的 印象 。 

在 文化 适应 方面 ， 我 认为 更 好 的 解释 是 评估 公司 是 否 丨 的 适合 你 。 如 果 你 不 相信 它 的 价值 ， 
你 不 需要 显 着 地 调整 自己 来 适应 公司 。 但 是 ， 你 至 少 应 该 调查 和 了 解 它 的 文化 。 

很 多 人 不 了 解 他 们 正在 面试 的 公司 。 对 我 来 说 ， 就 像 你 在 和 一 个 女孩 约会 而 不 知道 她 的 背 
景 。 这 就 是 “为 什么 加 入 我 们 "应 该 是 一 个 非常 简单 而 直接 的 问题 。 如 果 你 知道 公司 是 否 适合 
你 ， 你 应 该 可 以 在 几 秒 钟 内 回答 。 如 果 你 不 相信 公司 的 使 命 ， 也 许 你 本 来 不 应 该 申请 。 


给 面试 官 的 问题 

在 每 次 面试 结束 时 ， 通 常会 有 五 分 钟 向 面试 官 提 问 。 这 个 过 程 是 完全 可 选 的 ， 但 建议 问 一 
下 。 好 处 是 你 会 更 加 了 解 面试 官 和 公司 。 而 且 ， 向 公司 展示 你 的 兴趣 总 是 一 个 好 兆头 。 
不 要 认为 这 个 过 程 是 增加 机 会 的 一 种 方式 ， 尽 管 可 能 是 。 一 个 更 好 的 方法 就 是 询问 你 脑海 中 
关于 公司 的 任何 问题 ， 而 且 把 其 他 事情 考虑 好 。 


不 要 问 你 的 面试 表现 /结果 。 你 不 但 不 能 得 到 芮 实 的 反馈 ， 而 且 会 让 面试 官 感到 夏 坎 ， 因 为 他 
们 不 能 马上 告诉 你 结果 。 这 对 HR 来 说 是 一 个 问题 ， 而 面试 官 不 是 。 
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总 结 
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尽管 非 技 术 性 问题 可 能 成 为 面试 的 重要 部 分 ， 但 事实 是 ， 大 多 数 人 往往 会 过 度 担心 。 
大 多 数 时 候 ， 你 只 需要 做 你 自己 。 如 果 他 们 觉得 你 在 文化 方面 不 太 合适 ， 那 可 能 不 是 什么 坏 
事 ， 因 为 它 比 加 入 公司 好 得 多 ， 一 切 都 不 像 你 想象 的 那样 。 


在 面试 之 前 ， 你 绝对 可 以 准备 好 非 技术 性 的 问题 ， 但 是 要 专注 于 技术 性 问题 ， 这 是 面试 的 核 
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顺便 提 一 下 ， 如 果 你 想得到 资深 的 面试 官 的 更 多 指导 ， 可 以 查看 Gainlo， 以 便 与 Google， 
Facebook 等 公司 的 工程 师 进 行 模拟 面试 。 


九 、 非 技术 问题 
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十 、 非 谷歌 的 面试 


原文 : Chapter 10: "Non-Google" Interviews 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 
这 是 我 们 的 "Google 面试 准备 系列 完整 指南 "的 最 后 一 章 。 


如 果 你 持续 关注 我 们 的 博客 ， 我 希望 你 对 如 何 准 备 Google 面试 非常 清楚 。 很 多 人 可 能 会 
问 ， 这 个 指南 是 否 也 适用 于 非 Google 面试 。 这 是 本 章 的 重点 。 


简短 的 答案 是 肯定 的 ， 你 可 以 使 用 这 个 指南 来 准备 Facebook，Uber，Airbnb 等 大 多 数 顶 级 
公司 的 面试 。 这 正 是 你 看 到 一 些 人 刚刚 得 到 了 所 有 这 些 公司 录用 的 原因 。 


在 本 章 中 ， 我 将 讨论 非 Google 面试 风格 ， 准 备 "捷径 ?以 及 如 何 针 对 一 家 公司 进行 准备 。 


惊人 的 相似 
如 果 你 面试 了 很 多 公司 ， 你 会 发 现 面试 过 程 有 多 相似 。 更 重要 的 是 ， 同 样 的 问题 可 以 由 不 同 
的 公司 提出 。 


事后 看 来 ， 这 很 有 道理 。 公 司 正 试图 发 明 准确 高 效 的 系统 来 评估 软件 工程 师 。 在 这 一 点 上 ， 
最 广泛 采用 的 方法 是 通用 编程 面试 和 系统 设计 面试 。 这 种 机 制 可 以 让 公司 在 一 天 之 内 获得 候 
选 人 的 最 多 信息 。 


当然 ， 更 好 的 办 法 是 临时 聘请 候选 人 三 个 月 ， 然后 做 出 招聘 决定 。 但 是 ， 没 有 公司 能 负担 得 
起 。 


如 上 所 述 ， 由 于 种 种 限制 ，“Google 风格 面试 "是 迄今 为 止 的 最 佳 解决 方案 。 


这 对 候选 人 来 说 是 一 个 好 消息 。 你 绝对 可 以 花 半 年 的 时 间 准 备 面试 ， 这 对 大 多 数 公司 来 说 者 
是 有 效 的 。 


扎实 的 基础 


这 是 我 在 本 指南 中 最 后 一 次 强调 计算 机 科学 基础 。 具有 类 似 的 面试 流程 意味 着 扎实 的 基础 比 
以 往 更 重要 。 


完全 错误 的 策略 是 在 第 一 天 跳 进 编程 问题 。 更 重要 的 是 ， 他 们 会 去 Glassdoor 找到 某 公司 最 
近 提 出 的 问题 并 做 好 准备 。 如 果 没 有 很 好 地 掌握 计算 机 科学 的 基础 ， 这 种 方法 丨 的 是 专注 最 
不 重要 的 事情 。 更 糟糕 的 是 ， 这 不 仅 对 于 那个 特定 的 公司 不 起 作用 ， 它 只 是 浪费 你 和 所 有 公 
司 的 时 间 。 


另 一 方面 ， 如 果 你 从 一 开始 就 把 注意 力 集中 在 基础 上 ， 无 论 你 正在 准备 哪 家 公司 ， 你 都 会 处 
于 有 利 地 位 。 这 种 复合 效应 不 能 再 重要 了 。 


持之以恒 


我 不 希望 你 有 这 样 的 感觉 ， 我 们 的 帖子 可 以 给 你 一 些 技巧 ， 立 即 增 加 你 的 机 会 ， 不 费 吹 灰 之 
力 。 相 反 ， 我 鼓励 大 家 持之以恒 。 


尽早 开始 准备 ， 并 把 整个 过 程 当做 自我 提升 而 不 是 通过 测试 的 一 种 方法 。 正如 我 刚 开 始 提 到 
的 ， 如 果 你 只 剩 下 一 个 星期 ， 本 指南 不 适合 你 。 我 专注 于 帮助 那些 能 够 始终 如 一 地 努力 实现 
目标 的 人 们 ， 而 不 是 急于 立即 获得 满足 。 


这 个 策略 与 我 们 提供 的 所 有 技巧 一 致 。 如 果 你 还 有 至 少 几 个 月 的 时 间 ， 去 构建 一 些 东西 。 从 
事 一 个 项 目 是 提高 技术 技能 的 最 好 方法 ， 你 会 发 现在 编程 和 系统 设计 面试 (特别 是 后 者 ) 中 
都 有 价值 。 


总 是 寻找 捷径 ， 这 是 一 种 不 好 的 心态 。 如 果 有 任何 捷径 ， 捷 径 就 是 持之以恒 。 


公司 特定 的 准备 


公司 可 能 仍然 有 一 些 特定 类 型 的 面试 。 一 个 例子 就 是 亚马逊 在 第 一 轮 面试 中 通常 会 有 一 个 编 
程 测试 。 我 的 建议 很 简单 - 不 要 太 担 心 。 


我 建议 人 们 仍然 按照 他 们 的 初步 准备 计划 。 总 是 需要 着 重 于 基础 和 练习 编程 问题 。 如 果 没 有 
掌握 基本 的 数据 结构 和 算法 ， 你 将 无 法 通过 在 线 编程 测试 。 


在 面试 之 前 (也许 提 前 一 周 ) ， 你 可 以 做 一 些 公司 特定 的 准备 。 强 烈 建议 使 用 Glassdoor， 你 
可 以 找到 目标 公司 最 近 提 出 的 大 量 问题 。 换 名 话说 ， 你 应 该 在 准备 的 最 后 一 步 做 这 个 ， 或 多 
或 少 你 会 发 现 公 司 之 间 的 差异 。 

正 因 如 此 ， 当 人 们 问 我 如 何 准备 亚 马 过 的 在 线 测试 时 ， 我 建议 他 们 只 要 做 你 需要 做 的 事情 ， 
实质 上 根本 没有 什么 不 同 。 


值得 注意 的 是 ， 一 些 初创 公司 的 面试 风格 非常 不 同 ， 这 个 提示 并 不 适用 。 例 如 ， 许 多 初创 公 
司 会 给 候选 人 一 个 上 正 的 项 目 ， 并 期 望 他 们 在 一 个 周末 或 几 个 小 时 内 完成 。 如 果 你 一 直 在 做 
很 多 莫 正 的 项 目 ， 这 对 你 来 说 应 该 不 难 。 


如 果 我 希望 你 得 到 一 个 秘籍 ， 它 一 定 是 专注 于 “基础 ”。 大 多 数 人 往往 目光 短 浅 ， 大 部 分 时 间 
花 在 “ 细 枝 末节 ”上 。 如 果 没 有 扎实 的 基础 ， 你 或 许 能 够 偶然 地 解决 一 个 问题 ， 但 是 你 永远 无 
法 解决 所 有 问题 。 


很 多 人 告诉 我 ， 他 们 发 现 这 个 指南 很 有 用 ， 帮 助 他 们 得 到 了 梦想 中 的 工作 ， 我 很 高 兴 。 如 果 
你 还 有 其 他 问题 ， 请 随时 给 我 发 一 封 电子 邮件 或 在 博客 上 发 表 评 论 。 


系统 设计 面试 问题 集 


系统 设计 面试 的 问题 可 能 是 相当 开放 的 ， 这 就 是 很 多 人 都 害怕 这 种 面试 的 原因 。 尽 管 工 作 经 
验 在 系统 设计 面试 中 起 到 重要 的 作用 ， 但 并 不 意味 着 你 无 法 做 好 准备 。 

我 们 Gainlo 团队 已 经 手动 选择 了 一 系列 流行 的 系统 设计 面试 问题 ， 并 提供 深入 的 分 析 。 如 你 
所 知 ， 即 使 是 同一 个 问题 ， 不 同 的 面试 官 也 可 以 使 面试 完全 不 同 。 因 此 ， 请 不 要 把 我 们 的 文 
章 当 作 标 准 答案 ， 而 是 要 用 它们 来 获得 如 何 分 析 不 同 问 题 的 大 量 思 想 ， 并 减少 你 对 系统 设计 
面试 的 压力 。 


我 们 选择 的 许多 问题 既 实 用 又 有 趣 。 例 如 ， 在 “如何 设计 Twitter 系列 "文章 中 ， 我 们 已 经 涉及 
了 广泛 的 主题 ， 包 括 搜索 ， 排 名 ， 推 荐 ， 可 扩展 性 等 等 。 我 敢 肯 定 ， 即 使 你 没有 准备 系统 设 
计 面 试 ， 你 也 会 从 我 们 的 文章 中 学 到 很 多 东西 。 

我 认为 ， 没 有 适用 于 每 个 人 的 赢得 面试 的 黄金 法 则 。 但 是 ， 如 果 你 想 花 时 间 和 精力 来 练习 系 
统 设计 面试 问题 ， 你 最 终 会 发 现 这 些 问题 非常 容易 。 


如 果 你 有 任何 问题 或 建议 ， 请 随时 给 我 们 发 电子 邮件 ，info@gainlo.co。 


系统 设计 面试 之 前 需要 知道 的 八 件 事 
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面试 准备 中 最 常见 的 问题 是 什么 ? 我 可 以 立即 告诉 你 : 如 何 准备 系统 设计 面试 ? 


很 多 人 害怕 系统 设计 面试 ， 因 为 没有 一 定 的 模式 用 于 准备 ， 问 题 相 当 灵 活 和 不 可 预测 。 另 
外 ， 系 统 设计 的 问题 通常 是 开放 式 的 ， 没 有 标准 或 正确 的 答案 ， 这 使 得 准备 过 程 更 加 困难 。 


我 们 已 经 花 了 整整 一 个 月 的 时 间 来 编写 本 指南 ， 在 系统 设计 面试 之 前 告诉 你 一 些 你 应 该 知道 
的 事情 ， 同 时 让 你 更 加 无 忧 无 虑 ， 因 为 系统 设计 面试 并 不 像 许 多 人 想象 的 那样 困难 ， 一 定 的 
方式 绝对 可 以 帮助 你 适应 它 。 


1. 系统 设计 面试 中 评估 什么 ? 
我 们 都 知道 ， 编 程 面试 的 重点 是 候选 人 的 基本 知识 ， 所 以 会 测试 他 的 一 般 技术 能 力 和 分 析 能 
力 。 


但 是 ， 很 少 有 人 能 清楚 地 说 出 系统 设计 面试 的 目的 。 所 以 在 查看 提示 之 前 ， 最 好 从 面试 官 的 
角度 来 理解 系统 设计 面试 。 


在 系统 设计 面试 中 ， 候 选 人 经 常 被 要 求 设 计 一 个 新 的 系统 来 解决 一 个 开放 式 的 问题 ， 比 如 设 
计 短 网 址 服务 。 有 时 候 这 个 问题 可 能 相当 普遍 ， 比 如 你 如 何 为 Youtube 设计 推荐 系统 。 


在 这 个 过 程 中 ， 讨 论 是 核心 。 候 选 人 更 有 可 能 主导 对 话 ， 并 和 面试 官 讨 论 概 要 组 件 ， 细 节 ， 
优点 和 缺点 ， 以 及 一 切 。 


与 编程 面试 相 比 ， 系 统 设 计 面 试 更 像 软 件 工程 师 的 日 常 工作 。 


面试 时 ， 主 要 评估 你 的 沟通 和 解决 问题 的 能 力 。 给 定 一 个 开放 的 问题 ， 你 如 何 分 析 这 个 问 
题 ， 你 如 何 一 步 一 步 解决 问题 ， 你 如 何 解 释 你 的 想法 并 与 他 人 讨论 ， 如 何 评估 你 的 系统 并 优 
化 它 ， 是 面试 官 最 关心 的 。 


所 以 让 我 们 看 看 你 能 做 些 什么 准备 。 


2. 亲自 做 项 目 


准备 系统 设计 面试 的 最 好 方法 是 始终 贯穿 虽 实 的 项 目 和 实践 。 很 多 人 提前 六 个 月 或 一 年 开始 
准备 过 程 ， 这 绝对 是 你 的 最 佳 实践 。 


我 们 看 到 的 一 个 共同 的 模式 是 ， 你 拥有 的 实践 经 验 越 多 ， 在 系统 设计 面试 时 就 越 好 。 这 很 容 
钨 理解， 因为 这 些 系统 设计 问题 都 来 自 现实 生活 中 的 产品 ， 而 那些 从 事 过 许多 项 目的 人 往往 
对 这 些 问 题 有 更 好 的 理解 ， 或 者 这 只 是 他 们 之 前 解决 的 问题 之 一 。 


当 被 要 求 设计 Youtube 推荐 系统 时 ， 它 与 其 他 许多 推荐 系统 类 似 ， 因 为 很 多 概念 在 这 里 都 很 
常见 ， 


如 果 你 有 推荐 经 验 ， 或 者 你 已 经 阅读 了 一 些 文章 /书籍 或 者 思考 过 ， 你 至 少 应 该 能 够 提出 一 些 
初步 的 想法 。 


如 果 你 不 知道 要 做 什么 ， 这 里 给 你 一 些 建议 : 


建立 一 个 小 型 服务 /产品 来 解决 一 个 丨 正 的 问题 在 Github 上 贡献 开源 项 目 找到 你 喜欢 的 机 器 
学 习 ， 网 络 等 主题 ， 并 搜索 一 些 你 可 以 使 用 的 项 目 申 正 重要 的 是 去 做 一 些 现实 生活 中 的 项 

目 。 你 可 能 需要 很 长 时 间 才 能 看 到 改进 ， 但 是 在 那个 时 候 ， 你 会 注意 到 面试 问题 是 多 么 的 简 
单 。 而 有 全， 从 长 远 来 看 ， 你 将 从 中 受益 良 多 。 


3. 熟悉 基本 知识 


我 不 记得 我 强调 了 多 少 次 ， 但 这 对 于 系统 设计 面试 非常 重要 。 由 于 系统 设计 问题 是 开放 式 
的 ， 可 能 涵盖 许多 技术 领域 ， 这 里 的 基本 知识 远 不 止 是 数据 结构 和 算法 。 


首先 ， 毫 无 疑问 ， 你 应 该 非常 擅长 数据 结构 和 工法。 以 短 网 址 服务 为 例 ， 如 果 你 不 清楚 散 
列 ， 时 间 / 空 间 复 杂 度 分 析 ， 你 将 无 法 提出 一 个 好 的 解决 方案 。 


通常 情况 下 ， 在 时 间 和 内 存 效率 之 间 有 一 个 权衡 ， 你 必须 非常 精通 大 O 分 析 才 能 把 所 有 东西 
都 弄 清 楚 。 


还 有 其 他 一 些 你 最 好 熟悉 的 东西 ， 尺 管 可 能 不 会 在 面试 中 涉及 。 


e。 抽象 。 系 统 设计 面试 是 一 个 非常 重要 的 话题 。 你 应 该 清楚 如 何 抽象 系统 ， 什 么 是 可 见 的 
和 不 可 见 的 其 他 组 件 ， 以 及 它 背 后 的 逻辑 是 什么 。 面 向 对 象 编程 也 是 很 重要 的 。 

e 数据 库 。 你 应 该 清楚 关于 像 关 系数 据 库 这 样 的 基本 概念 。 取 决 于 你 的 水 平 〈 应 届 生 或 经 
验 丰 富 的 工程 师 ) ， 了 解 NoSQL 可 能 是 一 个 加 分 项 。 

e 网 络 。 你 应 该 能 够 清楚 地 解释 ， 当 你 在 浏览 器 中 键入 gainlo.co 时 会 发 生 什 么 。 例 如 
该 清楚 DNS 查找 和 HTTP 。 

e 并 发 。 如 果 你 能 够 识别 系统 中 的 并 发 问题 ， 并 告诉 面试 官 如 何 解 决 这 个 问题 ， 那 将 是 非 
常 棒 的 。 有 时 候 这 个 话题 可 能 很 难 ， 但 是 需要 了 解 一 些 基 本 的 概念 ， 比 如 说 竞 态 条 件 ， 
死 锁 是 底线 。 

。 操作 系统 。 有 时 你 与 面试 官 的 讨论 可 能 会 非常 深入 ， 这 时 最 好 知道 操作 系统 在 底层 如 何 
工作 。 


e。 机 器 学 习 (可 选 ) 。 你 不 需要 成 为 专家 ， 但 是 一 些 基 本 的 概念 ， 如 特征 选择 ， 通 常 ML 算 
法 的 工作 方式 ， 最 好 熟悉 它们 。 

。 请 记 住 ， 重 点 在 于 要 求 你 从 头 开始 学 习 所 有 这 些 东西 ， 这 可 
重要 的 是 每 个 主题 背后 的 基本 概念 。 例 如 ， 如 果 在 面试 中 不 
没 问 题 ， 但 是 你 应 该 可 以 用 一 个 句子 解释 它 。 


化 
月 已 
公 比 
月 已 


需要 一 年 多 的 时 间 。 站 正 
实现 神经 网 络 ， 那 么 完全 


4. 自 顶 向 下 和 模块 化 


这 是 解决 系统 设计 问题 的 一 般 策 略 ， 也 是 向 面试 官 解释 的 方法 。 最 糟糕 的 情况 是 总 是 立即 深 
入 ， 只 会 把 事情 弄 得 一 团 糟 。 


相反 ， 从 概要 想法 开始 ， 然 后 一 步 一 步 地 弄 清 细节 总 是 不 错 的 ， 所 以 这 应 该 是 自 顶 向 下 的 方 
法 。 为 什么 ?了 因为 许多 系统 设计 的 问题 是 非常 普遍 的 ， 没 有 大 方向 就 无 法 解决 。 


以 Youtube 推荐 系统 为 例 。 我 可 能 会 首先 把 它 分 成 前 端 和 后 端 (面试 官 可 能 只 人 
特定 部 分 ， 但 我 会 涵盖 整个 系统 让 你 明白 ) 。 对 于 后 端 ， 流 程 可 以 分 为 三 步 : 收 户 数 据 
(如 他 观看 的 视频 ， 位 置 ， 偏 好 等 ) ， 离 线 流 水 线 生成 推荐 ， 并 存储 数据 并 提供 给 前 端 。 然 
后 ， 我 们 可 以 深入 每 个 具体 组 件 。 


对 于 用 户 数据 ， 我 们 可 以 列 出 我 们 认为 的 ， 与 用 户 可 能 喜欢 的 视频 相关 的 功能 。 对 于 流水 
线 ， 我 们 可 以 讨论 如 何 训练 数据 集 等 。 我 们 可 以 做 得 更 深入 。 由 于 Youtube 拥有 巨大 的 数据 
集 ， 离 线 流 水 线 必 须 运行 大 量 的 数据 ， 那 么 可 能 会 使 用 MapReduce 或 Hadoop 。 


我 们 可 以 通过 逐 层 深入 来 继续 这 种 分 析 ， 但 我 想 在 这 里 解释 的 想法 是 ， 你 应 该 总 是 有 一 个 大 
方向 。 


另 一 个 技巧 是 模块 化 。 就 像 我 上 面 所 说 的 ， 最 好 把 系统 分 成 不 同 的 组 件 ， 这 在 现实 生活 中 也 
是 很 好 的 做 法 。 模 块 化 不 仅 可 以 使 你 的 设计 对 你 和 面试 官 更 清晰 ， 而 且 使 测试 更 容易 。 


5. 优点 和 缺点 
系统 设计 问题 通常 没有 太 多 的 限制 。 因 此， 好 的 解决 方案 和 不 好 的 解决 方案 之 间 没 有 明确 的 
界限 。 在 这 种 情况 下 ， 你 有 责任 了 解 不 同情 况 下 的 最 佳 方法 。 


最 常见 的 权衡 是 在 时 间 和 内 存 之 间 。 你 可 以 直接 告诉 面试 官 每 个 解决 方案 的 优 缺 点 ， 并 要 求 
他 澄清 你 有 多 少 内 存 的 限制 。 

另外 被 要 求 优化 系统 的 时 候 ， 你 也 可 以 把 一 些 常见 的 约束 放 在 那里 ， 例 如 ， 如 果 你 正在 为 轰 
照 设 计 一 些 东 西 ， 你 可 以 告诉 面试 官 ， 假 设 驾照 的 最 大 长 度 可 能 是 七 是 合理 的 ， 通 过 这 种 方 
式 ， 你 可 以 将 所 有 驾照 存储 在 内 存 中 ， 从 而 可 以 进一步 优化 系统 。 


6. 估 寺 


在 做 估计 时 ， 你 最 好 对 数字 有 很 好 的 感觉 ， 这 在 实 
清楚 地 估计 出 你 的 系统 或 程序 会 消耗 多 少 内 存 ， 运 
调整 你 的 设计 。 


际 项 目 中 更 为 重要 。 更 具体 地 说 ， 你 应 该 
行 速度 有 多 快 ， 根 据 你 的 估计 ， 你 将 如 何 


如 果 我 们 使 用 驾照 的 示例 ， 那 么 当然 可 以 假设 内 存 足 以 存储 所 有 美国 驾照 。 但 是 ， 你 首先 估 
计 你 需要 多 少 内 存 来 存储 ， 这 会 更 令 人 印象 深刻 。 


为 了 估计 内 存 的 消耗 ， 你 应 该 计算 最 大 长 度 为 七 时 有 多 少许 可 证 ， 以 及 你 将 使 用 哪 种 数据 结 
构 来 存储 ， 然 后 计算 出 你 需要 多 少 内 存 ， 这 会 让 你 弄 清楚 ， 你 的 想法 是 否 是 可 行 的 。 


当 决 定 存 储 介 质 时 ， 内 存 当 然 不 是 唯一 的 解决 方案 。 除 了 将 所 有 内 容 存 储 在 内 存 之 外 ， 你 还 
可 以 存储 在 磁盘 中 ， 也 可 以 存储 在 多 台 计 算 机 上 。 最 佳 方法 的 选择 实际 上 是 估计 时 间 和 存储 
成 本 的 问题 。 找 出 执行 时 间 和 内 存 限制 的 瓶颈 ， 将 会 让 你 对 整个 系统 有 更 清晰 的 认识 。 


3 了 了 、 NA、 
7. 模拟 面试 
说 实话 ， 由 于 没有 标准 的 答案 ， 所 以 你 自己 练习 系统 设计 面试 并 不 容易 。 所 以 建议 始终 在 一 
些 有 经 验 的 工程 师 面前 练习 它 。 


而 且 通过 这 个 过 程 ， 你 会 花 大 部 分 时 间 与 面试 官 沟通 和 讨论 ， 这 是 系统 设计 面试 的 主要 内 
容 。 所 以 简 而 言 之 ， 我 们 强烈 建议 你 不 要 自己 练习 系统 设计 面试 。 


像 Gainlo 这 样 的 网 站 可 以 让 你 和 谷歌 ， 亚 马 过 等 公司 的 员工 进行 模拟 面试 ， 这 真 的 很 有 才 
助 。 


8. 从 现 有 系统 中 学 习 


这 个 方法 是 我 通常 建议 人 们 去 做 的 。 每 当 你 对 某 个 系统 感到 好 奇 时 ， 试 着 弄 清 楚 这 个 系统 如 
何 设 计 。 你 可 以 先 尝试 自己 设计 ， 然 后 再 和 实际 设计 比较 。 最 重要 的 是 ， 试 着 理解 为 什么 这 
样 设计 。 数 据 大 小 ， 速 度 要 求 等 一 些 限制 可 能 连 使 系统 变 成 这 样 。 
http://highscalability.com 有 很 多 现实 世界 的 系统 设计 的 好 文章 。 对 于 系统 设计 面试 来 说 ， 这 
可 能 有 些 过 头 了 ， 但 是 了 解 它们 总 是 很 好 的 。 

你 也 会 注意 到 ， 即 使 是 同一 种 系统 ， 不 同 的 公司 也 可 能 有 完全 不 同 的 设计 方式 。 你 肯定 会 从 
探索 它们 中 学 到 很 多 。 


系统 设计 面试 非常 有 趣 ， 因 为 它 更 接近 现实 世界 的 产品 。 准 备 的 关键 在 于 明确 面试 中 的 其 
望 ， 并 花费 足够 的 时 间 和 精力 处 理 站 正 重要 的 事情 。 


如 果 你 对 系统 设计 问题 没有 标准 答案 感到 害怕 ， 你 也 可 以 克服 它 ， 因 为 你 的 答案 始终 正确 。 


我 希望 这 篇 文章 能 够 让 你 不 必 担 心 系统 设计 面试 ， 让 我 知道 你 对 此 有 何 看 法 。 


如 何 设 计 Twitter (第 一 部 分 ) 


原文 : How to Design Twitter (Part 1) 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 
从 上 周 的 调查 来 看 ， 我 们 的 大 部 分 用 户 都 希望 更 多 地 了 解 系统 设计 面试 。 


没有 任何 示例 就 很 难 提供 提示 ， 这 就 是 为 什么 在 这 篇 文章 中 ， 我 将 使 用 一 个 非常 流行 的 系统 
设计 问题 ， 告 诉 你 如 何 解决 它 。 


另外 值得 一 提 的 是 ， 人 非常 开放 的 ， 因 此 没有 标准 答案 这 样 的 事情 


即使 是 同一 个 问题 ， 你 也 会 和 不 同 的 面试 官 进行 完全 不 同 的 讨论 。 
因此 ， 不 要 过 分 关注 问题 或 解决 方案 本 身 。 相反 ， 你 最 好 从 分 析 中 总 结 出 某 些 模式 或 策略 。 


我 们 将 从 这 个 “简单 "问题 开始 - 你 将 如 何 设 计 Twitter? 


注 : 我 从 来 没有 在 Twitter 工作 ， 整 篇 文章 是 为 了 说 明 系统 设计 的 想法 。 另外， 感谢 Gainlo 
队 在 我 们 一 起 合作 提供 所 有 这 些 分 析 。 


常见 的 误解 
在 我 们 进行 分 析 之 前 ， 我 想 澄清 求职 者 的 最 常见 的 误解 之 一 。 


当 被 要 求 设计 推 特 时 ， 许 多 人 倾向 于 立即 潜入 技术 细节 。 一 个 常见 的 行为 是 列 出 一 些 像 
MongoDB，Bootstrap，MapReduce 等 工具 或 框架 ， 并 试图 解释 我 们 应 该 使 用 哪 种 特定 的 技 
术 。 


ee 法 。 使 用 什么 工具 并 不 重要 ， 但 是 如 何 定义 问 
， 如 何 设 计 解 决 方案 以 及 如 何 逐 步 分 析 问 题 是 非常 重要 的 。 


这 些 正 是 初级 开发 人 员 和 高 级 工程 师 的 区 别 。 如 果 你 还 没有 查看 这 个 文章 ， 你 也 应 该 看 看 。 
定义 问题 


让 我 们 开始 讨论 这 个 问题 - 如 何 设计 Twitter 。 


系统 设计 问题 通常 是 非常 普遍 的 ， 因 此 没有 很 好 的 定义 。 这 就 是 很 多 人 不 知道 如 何 开始 的 原 
o 


这 与 现实 生活 中 的 项 目 很 相似 。 因 此 ， 我 们 要 做 的 第 一 件 事 就 是 进一步 明确 问题 ， 使 问题 更 
加 明确 和 具体 。 


在 这 个 问题 上 ， 我 首先 要 做 的 就 是 将 Twitter 压缩 到 MVP (最 小 可 行 产 品 ) 。 换 名 话说 ， 我 
们 只 会 设计 Twitter 的 核心 ， 而 不 是 一 切 功能 。 


所 以 整 发 个 产品 应 该 允许 人 们 相互 关注 > 并 查看 他 人 的 信 息 流 (Feeds) 。 就 是 这 样 简单 。 
(如 果 需 要 任何 功能 ， 面 试 官 应 该 能 够 洪 清 ) 。 其 它 功 能 例如 注册 ，Moment， 安 全 等 都 不 在 
讨论 范围 之 内 。 


概要 解决 方案 
我 们 之 前 说 过 ， 不 要 立即 深入 所 有 的 细节 ， 这 也 会 把 面试 官 和 你 自己 摘 蛙 。 


我 在 这 里 使 用 的 通用 策略 是 ， 将 整个 系统 分 成 几 个 核心 组 件 。 有 相当 多 的 分 支 策略 ， 例 如 
你 可 以 分 为 前 端 /后 端 ， 离 线 / 在 线 逻 辑 等 。 


在 这 个 问题 中 ， 我 将 为 以 下 两 件 事情 设计 解决 方案 : 1) 数据 建 模 。2) 如 何 处 理 信 息 流 。 


数据 建 模 - 如 果 我 们 想 使 用 像 MySQL 这 样 的 关系 数据 库 ， 我 们 可 以 定义 用 户 对 象 和 信息 流 对 
象 。 两 种 关系 也 是 必要 的 。 一 个 是 用 户 可 以 关注 其 它 用 户 ， 另 一 个 是 每 个 信息 流 都 由 一 个 用 
户 拥 有 。 


处 理 信 息 流 - 最 直接 的 方法 是 从 所 有 关注 的 人 中 提取 信息 流 ， 并 按时 间 呈 现 它们 。 


面试 将 不 会 在 这 里 停止 ， 因 为 还 有 很 多 我 们 还 没有 涉及 的 细节 。 面试 官 完 全 可 以 决定 接 下 来 
要 讨论 的 内 容 。 


具体 问题 


要 记 住 ， 概 要 想法 可 以 无 限 延伸 。 所 以 我 只 会 在 这 里 介绍 一 些 后 续 问 题 。 
1， 当 用 户 关注 很 多 人 时 ， 获 取 并 呈现 所 有 的 推 文 可 能 开销 很 大 。 如 何 改善 它 ? 


有 很 多 方法 。 由 于 Twitter 拥有 无 限 滚动 功能 ， 特 别 是 在 移动 设备 上 ， 每 次 我 们 只 需要 获 
取 最 新 的 N 个 推 文 ， 而 不 是 所 有 的 推 文 。 然 后 会 有 很 多 如 何 实现 分 页 的 细节 。 


你 也 可 以 考虑 缓存 ， 这 也 可 能 有 助 于 加 快速 度 。 
2， 如 何 检测 假 用 户 ? 


能 与 机 器 学 习 有 关 。 其 中 一 种 方法 是 确定 注册 日 期 ， 粉 丝 数量 ， 推 文 数量 等 相关 特 
征 ， ye 学 习 系 统 来 检测 用 户 是 否 是 假 的 。 


3， 我 们 可 以 用 其 他 算法 来 订阅 信息 流 嘛 ? 


过 去 几 周 过 个 话题 的 争论 很 多 。 如 果 我 们 想 根据 用 户 的 兴趣 订购 ， 如 何 设计 算法 ? 


我 想 说 一 些 我 们 应 该 向 面试 官 洪 清 的 事情 
如 何 衡 量 算 法 ? 也许 用 户 在 推 特 或 用 户 交 互 上 喜欢 /转发 的 平均 时 间 。 


用 什么 信号 来 评估 用 户 喜 欢 这 个 信息 流 的 可 能 性 ? 用 户 与 作者 的 关系 ， 该 信息 的 回复 / 转 
a ， 作者 的 粉丝 数量 等 可 和 重要 。 


如 果 使 用 机 器 学 习 ， 如 何 设计 整个 系统 ? 
4.， 如何 实现 @ 功能 和 转 推 功 能 ? 


对 于 @ a ， Be Sp 列表 。 因 此 ， 在 呈现 你 的 信息 流 
时 ， 你 还 应 该 包含 @ 列表 中 拥有 你 的 ID 的 信息 流 。 这 稍微 增加 了 呈现 逻辑 的 复杂 性 。 


对 于 转 推 功能 ， 我 们 可 以 做 类 似 的 事情 。 在 每 个 推 文中 ， 都 会 存储 一 个 推 文 ID ( 指 
针 ) ， 如 果 存 在 ， 则 会 指示 原始 推 文 。 


但 要 小 心 ， 当 用 户 转 推 已 转 推 的 推 文 时 ， 你 应 该 能 够 弄 清楚 正确 的 逻辑 。 这 是 一 个 产品 
决策 ， 你 是 否 要 将 其 制作 成 多 层 还 是 仅 保留 原始 推 文 。 


总 多 
[ASINIP 一 口 
在 这 个 话题 中 ， 我 想 介绍 的 东西 太 多 了 ， 所 以 我 不 得 不 把 它 分 成 两 部 分 。 


这 里 值得 澄清 的 是 ， 对 于 我 提 到 的 每 个 问题 ， 没 有 标准 解决 方案 。 换 句 话说， 还 有 很 多 其 他 
解决 方案 同等 或 优 于 上 述 方案 。 


另外 ， 这 个 问题 已 经 被 简化 了 很 多 ， 我 非常 肯定 在 Twitter 的 生产 中 已 经 开发 了 更 多 的 东西 。 
在 这 里 再 次 强调 ， 解 决 方案 不 是 你 应 该 最 关心 的 。 相 反 ， 裳 试 了 解 我 如 何 处理 和 分 析 问 题 。 


如 果 你 觉得 这 篇 文章 有 帮助 ， 请 分 享 给 你 的 朋友 ， 我 会 很 感谢 。 你 也 可 以 在 这 里 查看 更 多 的 
系统 设计 面试 问题 和 分 析 。 


如 何 设计 Twitter (第 二 部 分 ) 


原文 : How to Design Twitter (Part 2) 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 

自豪 地 采用 谷歌 翻译 


这 篇 文章 谈论 了 系统 设计 面试 的 问题 ， 特 别 是 如 何 设计 twitter 。 如 果 你 还 没有 查看 第 一 部 


分 ， 请 去 阅读 。 


好 的 ， 这 里 是 系统 设计 面试 问题 - 如 何 设计 twitter 的 第 二 部 分 。 上 一 篇 文章 中 我 们 已 经 提 
到 ， 我 们 知道 系统 设计 问题 可 能 是 非常 开放 的 。 即 使 是 同一 个 问题 ， 你 肯定 会 和 不 同 的 面试 
官 有 完全 不 同 的 讨论 号 


Gainlo 团队 提供 了 分 析 ， 我 相当 确定 有 更 好 的 方法 。 


Twitter 已 经 是 一 个 拥有 大 量 功能 的 庞大 产品 。 在 这 篇 文章 中 ， 我 们 将 讨论 如 何 从 系统 设计 面 
试 角度 设计 Twitter 的 特定 功能 。 


热门 话题 

Twitter 会 在 主页 的 搜索 页 面 和 左 栏 (也 可 能 是 其 他 地 方 ) 显示 热门 话题 。 点 击 每 个 主题 将 你 
转 到 所 有 相关 的 推 文 。 

问题 是 如 何 设计 这 个 功能 。 


如 果 你 还 记得 我 们 在 前 一 篇 文章 中 所 说 的 话 ， 建 议 先 拥有 概要 方法 。 简 而 言 之 ， 我 会 将 问题 
分 成 两 个 子 问题 : 1) 如 何 获得 热门 话题 候选 ? 2) 如 何 对 这 些 候选 进行 排名 ? 

对 于 主题 候选 ， 有 各 种 各 样 的 想法 。 我 们 可 以 获得 过 去 的 N 小 时 内 最 频繁 的 标签 。 我 们 也 可 
以 获得 最 热门 的 搜索 查询 。 或 者 ， 我 们 甚至 可 能 会 抓 取 最 近 最 受 欢 迎 的 推 文 ， 并 提取 一 些 常 
见 词语 或 短语 。 但 个 人 而 言 ， 我 会 采用 前 两 种 方法 。 

排名 可 以 很 有 趣 。 最 直接 的 方法 是 根据 频率 进行 排名 。 但 是 我 们 可 以 进一步 改进 它 。 例 如 ， 
我 们 可 以 整合 像 回 复 / 转 推 /喜欢 的 数量 ， 新 鲜 度 等 信号 。 我 们 也 可 能 会 添加 一 些 个 性 化 的 信 
号 ， 比 如 是 否 有 很 多 关注 /粉丝 在 谈论 这 个 话题 。 


关注 推荐 


Twitter 还 会 向 你 显示 关注 推荐 。 实 际 上 ， 这 是 在 用 户 入 驻 和 参与 中 起 着 重要 作用 的 核心 功 
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如 果 你 玩 这 个 功能 ， 你 会 注意 到 Twitter 主要 有 两 种 人 给 你 看 - 你 可 能 认识 的 人 (朋友) 和 闭 
名 的 用 户 (名 人 /品牌 ...) 。 


通过 搜索 用 户 的 “关注 图 "， 所 有 这 些 候选 人 都 不 难 获得 ， 而 三 个 步 之 内 的 人 都 是 很 好 的 候选 
人 。 此 外 ， 也 可 以 包含 大 多 数 追 随 者 的 账户 。 


司 题 是 如 何 对 他 们 排名 ， 因 为 每 次 我 们 只 能 显示 一 些 建议 。 我 会 倾向 于 使 用 机 器 学 习 系 统 来 
实现 它 。 


将 


有 很 多 我 们 可 以 使 用 的 特征 ， 例 如 其 他 人 是 否 关 注 过 这 个 用 户 ， 共 同 关 注 / 粉 丝 的 数量 ， 或 任 
何 基本 信息 (如 位 置 ) 的 重 受 等 等 。 


这 是 一 个 复杂 的 问题 ， 有 各 种 后 续 问 题 : 


e@ 如 何 为 亿 万 级 用 户 扩展 系统 ? 
e 如 何 评估 系统 ? 
e@ 如 何 为 Facebook 设计 相同 的 功能 (双向 关系 ) ? 


Moments 


Twitter 会 向 你 展示 当前 标签 中 的 趋势 。 这 个 功能 比 热 门 话 题 更 复杂 ， 我 认为 这 里 有 必要 简单 
地 解释 一 下 。 

基本 上 ，“Moments” 会 向 你 展示 不 同类 别 (新 闻 ， 人 体育， 娱乐 等 ) 的 有 趣 话 题 列表 。 对 于 每 个 
话题 ， 你 还 可 以 获得 几 个 讨论 它 的 顶级 推 文 。 所 以 这 是 一 个 探索 目前 情况 的 很 好 方式 。 


我 很 确定 有 很 多 设计 这 个 系统 的 方法 。 一 种 选择 是 从 新 闻 网 站 获取 过 去 的 1-2 个 小 时 内 最 热 
门 的 文章 。 对 于 每 篇 文章 ， 找 到 与 其 相关 的 推 文 ， 并 找 出 它 属于 哪个 类 别 (新 闻 ， 体 育 ， 娱 
乐 等 ) 。 然 后 ， 我 们 可 以 在 Moments 中 将 这 篇 文章 作为 热门 话题 展示 。 


另 一 个 类 似 的 方法 是 获得 所 有 热门 话题 (与 第 一 部 分 相同 ) ， 找 出 每 个 话题 的 类 别 ， 在 
Moment 中 展示 。 


对 于 这 两 种 方法 ， 我 们 将 有 以 下 三 个 子 问 题 来 解决 : A. 将 每 个 推 特 /话题 分 类 到 一 个 类 别 (新 
闻 ， 体 育 等 ) B. 在 Moments 中 生成 和 排列 热门 话题 C. 为 每 个 话题 生成 和 排名 推 文 。 

对 于 A， 我 们 可 以 预先 定义 几 个 主题 ， 并 进行 监督 学 习 。 或 者 我 们 也 可 以 考虑 聚 类 。 事 实 
上 ， 微 博 中 的 文字 ， 用 户 的 个 人 资料 ， 关 注 者 的 评论 中 包含 了 大 量 的 信息 ， 使 算法 准确 无 
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对 于 日 和 C 来 说 ， 因 为 它 跟 这 篇 文章 的 第 一 部 分 很 相似 ， 所 以 我 就 不 谈 了 。 


搜索 


Twitter 的 搜索 功能 是 人 们 日 常 使 用 的 另 一 种 流行 功能 。 如 果 你 完全 不 知道 搜索 引擎 是 如 何 工 
作 的 ， 你 可 以 查看 本 教程 。 


如 果 我 们 只 讨论 一 般 的 推 文 搜索 功能 (不 包括 用 户 搜索 和 高 级 搜索 ) ， 那 么 概要 方法 可 能 
Google 搜索 非常 相似 ， 只 不 过 你 不 需要 抓 取 网 页 。 基 本 上 ， 你 需要 建立 索引 ， 排名 和 检索 。 


如 果 你 深入 了 解 如 何 设计 排名 算法 ， 事 情 会 变 得 非常 有 趣 。 与 Google 不 同 ，Twitter 搜索 可 

能 更 关注 新 鲜 度 和 社交 信和 号。 

最 直接 的 方法 是 给 每 个 功能 /信号 一 个 权重 ， 然 后 计算 每 个 推 文 的 排名 分 数 。 那 么 我 们 可 以 按 
它们 进行 排名 。 功 能 可 以 包括 回复 / 转 推 /喜欢 的 数字 ， 相 关 性 ， 新 鲜 度 ， 用 户 的 知名 


但 是 ， 我 们 如 何 评估 排名 和 搜索 ? 我 认为 最 好 定义 一 些 核心 指标 ， 比 如 每 天 的 搜索 总 数 ， 搜 
索 之 后 的 推 文 点 击 事件 等 等 ， 每 天 观察 这 些 指标 。 他 们 也 是 无 论 怎么 改变 我 们 都 应 该 关心 的 
统计 量 。 


总 结 


你 会 意识 到 许多 功能 都 是 数据 驱动 的 ， 这 并 不 意味 着 你 必须 是 机 器 学 习 专 家 。 但 是 对 数据 分 
析 如 何 工作 有 一 些 概要 性 的 想法 ， 肯 定 是 有 帮助 的 。 

好 的 工程 师 通常 也 会 提出 很 好 的 问题 。 每 当 你 有 一 个 解决 方案 ， 试 着 问 自己 各 种 问题 ， 来 更 
好 地 了 解 系 统 。 

如 果 你 觉得 这 篇 文章 有 帮助 ， 请 分 享 给 你 的 朋友 ， 我 会 很 感谢 。 你 也 可 以 在 这 里 查看 更 多 的 
系统 设计 面试 问题 和 分 析 。 


创建 照片 分 享 应 用 


原文 : Create a Photo Sharing App 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 

自豪 地 采用 谷歌 翻译 


在 我 发 布 我 们 的 第 一 个 系统 设计 面试 问题 后 - 如 何 设 计 twitter， 我 们 得 到 了 更 多 这 样 的 教程 的 
很 多 请 求 。 


Gainlo 团队 亲自 挑选 了 一 系列 既 经 典 又 易于 扩展 的 系统 设计 面试 问题 。 因此， 我 相信 这 些 问 
题 可 以 帮助 你 更 好 地 了 解 如 何 进 行 系统 设计 面试 。 


同样 值得 注意 的 是 ，Gaino 团队 提供 的 分 析 仅 用 于 系统 设计 面试 展示 。 生产 中 的 卜 正 解决 方 
案 可 能 非常 不 同 ， 因 为 我 们 在 这 里 极 大 简化 了 问题 。 


创建 照片 分 吝 应 用 


如 何 创建 像 Instagram 的 照片 分 享 应 用 ? 


更 具体 地 说 ， 该 系统 允许 人 们 相互 关注 ， 分 享 /评论 /喜欢 图 片 ， 也 许 还 有 一 些 其 他 功能 ， 如 探 
索 ， 广 告 等 等 。 


我 们 想 在 这 里 分 析 这 个 问题 有 几 个 原因 。 首先 ， 图 片 共 享 系统 非常 流行 。 我 没有 选择 一 个 奇 
怪 问 题 ， 在 现实 世界 中 几乎 没有 应 用 。 相反 ， 有 很 多 像 Pinterest，Flickr 等 类 似 的 产品 。 


其 次 ， 问 题 是 通用 的 ， 这 在 系统 设计 面试 中 是 非常 普遍 的 。 通常， 面试 官 不 会 要 求 你 解决 一 
个 明确 的 问题 ， 这 正 是 让 很 多 人 不 舒服 的 东西 。 


最 后 ， 分 析 涵 盖 了 可 扩展 性 ， 数 据 库 ， 数 据 分 析 等 广泛 的 主题 ， 以 便 它 可 以 在 其 他 系统 设计 
面试 问题 中 重用 。 

概要 解决 方案 

我 们 在 以 前 的 文章 中 多 次 强调 ， 建 议 先 从 概要 解决 方案 开始 ， 然 后 再 深入 研究 各 种 细节 。 
这 种 方法 的 优点 是 ， 你 能 清楚 你 想 要 解决 什么 问题 ， 而 且 面 试 官 不 太 可 能 困惑 。 

为 了 设计 图 片 共享 系统 ， 确 定 两 个 主要 对 象 - 用 户 对 象 和 图 片 对 象 是 相当 直接 的 。 


就 我 个 人 而 言 ， 我 想 使 用 关系 数据 库 来 解释 ， 因 为 它 通常 更 容易 理解 。 在 这 种 情况 下 ， 我 们 
将 有 用 户 表 ， 其 中 包含 名 称 ， 电 子 邮件 ， 注 册 日 期 等 信息 。 图 片 表 也 是 一 样 。 


此 外 ， 我 们 还 需要 存储 两 个 关系 - 用 户 关注 关系 和 用 户 图 片 关 系 。 这 是 非常 自然 的 ， 值 得 注意 
的 是 用 户 关注 不 是 双向 的 。 


因此 ， 拥 有 这 样 的 数据 模型 可 以 让 用 户 相 互 关注 。 为 了 检查 用 户 的 信息 流 ， 我 们 可 以 从 他 关 
注 的 人 中 提取 所 有 照片 。 


潜在 的 规模 问题 
上 面 的 解决 方案 应 该 可 以 正常 工作 。 作 为 一 名 面试 官 ， 我 总 是 想 问 ， 当 我 们 拥有 数 百 万 用 户 
时 ， 如 何 解决 这 个 问题 会 出 现 什 么 问题 ? 


这 个 问题 是 一 个 好 方法 ， 测 试 候选 人 是 否 可 以 预见 潜在 的 规模 问题 ， 优 于 只 问 你 如 何 解 决 某 
个 问题 。 


当然 ， 没 有 标准 的 答案 ， 我 想 列 举 几 个 想法 作为 灵感 


1. 响应 时 间 
当 用 户 达 到 一 定数 量 时 ， 会 看 到 响应 时 间 慢 成 为 瓶颈 


例如 ， 一 个 开销 大 的 操作 是 呈现 用 户 的 信息 流 。 服 务 器 必须 检查 用 户 所 关注 的 每 个 人 ， 从 中 
获取 所 有 图 片 ， 并 根据 特定 的 算法 对 其 进行 排名 。 当 用 户 关注 大 量 图 片 的 人 时 ， 操 作 可 能 会 
很 慢 。 


这 里 可 以 应 用 各 种 方法 。 如 果 是 瓶颈 ， 我 们 可 以 升级 排名 算法 。 如 果 按 照 日 期 排序 ， 我 们 可 
以 使 用 无 限 滚 动 功能 ， 从 每 个 人 中 读 取 前 N 张 最 近 的 图 片 。 或 者 我 们 可 以 使 用 离线 流水 线 ， 
预先 计算 一 些 可 以 加 快 排名 的 信号 。 


关键 是 ， 不 可 能 有 人 关注 数 百 个 用 户 ( 谁 说 的 ?) ， 但 可 能 有 人 有 成 千 上 万 的 图 片 。 所 以 核 
心 是 加 快 图 片 的 获取 和 排名 。 

架构 扩展 
当 只 有 数 十 个 用 户 和 图 片 时 ， 我 们 可 以 从 一 台 服 务 器 存储 和 提供 所 有 的 东西 。 


但 是 ， 对 于 数 百 万 用 户 来 说 ， 单 个 服务 器 远 远 不 够 ， 由 于 存储 ， 内 存 ，CPU 限制 等 问题 。 这 
就 是 为 什么 当 有 大 量 请 求 时 ， 很 常 看 到 服务 器 崩 演 。 


为 了 扩展 架构 ， 经 验 法 则 是 面向 服务 的 架构 (SOA) 优 于 单一 的 应 用 。 


不 要 把 所 有 的 东西 放 在 一 起 ， 最 好 把 整个 系统 按 服务 分 成 小 的 组 件 ， 并 把 每 个 组 件 分 开 。 例 
如 ， 我 们 可 以 将 数据 库 与 负载 均衡 器 的 Web 应 用 (在 不 同 的 服务 器 上 ) 分 开 。 


3. 数据 库 扩 展 
即使 我 们 把 数据 库 放 在 一 个 单独 的 服务 器 上 ， 也 不 能 存储 无 限 的 数据 。 


在 某 个 时 候 ， 我 们 需要 扩展 数据 库 。 对 于 这 个 特定 的 问题 ， 我 们 可 以 通过 将 数据 库 分 割 成 像 
0 
用 户 等 属性 进行 分 割 来 进行 水 平分 割 (Sharding) 。 


你 可 以 查看 这 篇 文章 来 深入 分 析 可 扩展 性 问题 。 


信息 流 排 名 
讨论 如 何在 用 户 的 时 间 线 中 对 信息 流 (图 片 ) 进行 排名 也 很 有 趣 。 


尽管 按照 时 间 顺 序 排列 所 有 内 容 是 相当 简单 的 ， 但 这 是 否 是 最 好 的 方法 ? 这 样 的 开放 式 问 题 
在 系统 设计 面试 中 非常 普遍 。 


其 实 ， 可 以 有 不 少 的 选择 。 例 如 ， 结 合 时 间 和 用 户 喜 欢 这 张 照 片 的 可 能 性 的 算法 绝对 是 有 项 
望 的 。 


为 了 设计 这 样 的 算法 ， 一 个 常用 的 策略 是 提出 一 个 评分 机 制 ， 将 各 种 特征 作为 指标 并 计算 每 
张 图 片 的 最 终 分 数 。 


直观 地 说 ， 重 要 的 功能 包括 喜欢 /评论 的 数量 ， 用 户 是 否 喜 欢 许 多 照片 的 所 有 者 等 等 。 由 于 简 
单 ， 可 以 使 用 线性 组 合作 为 起 点 。 


然后 ， 值 得 尝试 像 协同 过 滤 这 样 的 更 先进 的 机 器 学 习 工 法 。 


图 像 优化 


由 于 图 片 共享 系统 充满 了 图 像 我 想 问 一 下 可 以 优化 哪些 图 片 相关 的 内 容 ? 


首先 ， 通 常 建议 在 生产 中 0 片 。Amazon S3 是 最 受 欢迎 的 存储 系统 之 一 。 但 
是 ， 你 不 需要 能 够 提出 这 


重点 是 图 像 通 常 很 大 ， 很 少 更 新 。 所 以 独立 的 图 像 存储 系统 有 很 多 优点 。 例 如 ， 当 文件 是 静 
态 的 时 候 ， 缓 存 和 复制 可 以 简单 得 多 。 


其 次 ， 为 了 节省 空间 ， 应 该 压缩 图 像 。 一 种 常用 的 方法 是 仅 存 储 /提供 压缩 版 本 的 图 像 。 实 际 
有 ，Google 照片 使 用 这 种 方式 ， 并 提供 无 限 的 免费 存储 。 


CH 


在 这 篇 文章 中 ? 还 有 一 些 话题 没有 涉及 9 比如 如 何在 Instagram 中 构建 探索 功能 。 我 希望 你 
可 以 花 一 些 时 间 考 虑 一 下 。 

另外 供 参考 ， 你 可 以 查看 Instagram 的 基础 设施 和 Flickr 架构 。 但 是 ， 我 不 认为 他 们 对 系统 
设计 面试 非常 有 帮助 ， 因 为 他 们 太 过 专注 于 技术 而 不 是 设计 原则 。 

如 果 你 觉得 这 篇 文章 有 帮助 ， 请 分 享 给 你 的 朋友 ， 我 会 很 感谢 。 你 也 可 以 在 这 里 查看 更 多 的 
系统 设计 面试 问题 和 分 析 。 


创建 短 网 址 系统 


原文 : Create a TinyURL System 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 
如 果 你 已 经 开始 准备 系统 设计 面试 ， 你 一 定 听 说 过 一 个 最 流行 的 问题 - 创建 一 个 短 网 址 系统 。 


本 周 ，Gainlo 团队 就 这 个 面试 问题 集思广益 。 我 想 总 结 一 下 ， 如 何 用 概要 思想 来 分 析 这 个 问 


题 。 


如 果 你 是 系统 设计 面试 新 手 ， 我 强烈 建议 你 在 系统 设计 面试 之 前 首先 了 解 一 下 你 需要 了 解 的 
八 件 事 情 ， 其 中 提供 了 可 帮助 你 入 门 的 一 般 性 策略 。 


问题 


如 何 创建 一 个 短 网 址 系统 ? 


如 果 你 对 短 网 址 不 熟悉 ， 我 在 这 里 简要 解释 一 下 。 基 本 上 ， 短 网 址 是 URL 缩短 服务 ， 一 个 
Web 服务 ， 提 供 简 短 别名 来 重 定向 长 URL。 还 有 很 多 其 他 类 似 的 服务 ， 比 如 Google URL 


A A 


Shortener，Bitly 寺 寺 。 


例如 ，URL http://blog.gainlo.co/index.php/2015/10/22/8-things-you-need-to-know-before- 
system-design-interviews/ 很 长 ， 很 难 记 住 ， 短 网 址 可 以 为 它 创建 一 个 别名 - 
http://tinyurl.com/j7ve58y。 如 果 你 点 击 别名 ， 它 会 将 你 重 定向 到 原始 网 址 。 


所 以 如 果 你 设计 这 个 系统 ， 允 许 人 们 输入 URL， 生 成 较 短 的 别名 URL， 你 会 怎么 做 ? 


概要 思想 


让 我 们 以 基础 和 概要 解决 方案 开始 ， 然 后 再 继续 优化 。 


乍 一 看 ， 每 个 长 URL 和 相应 的 别名 形成 一 个 键 值 对 。 我 布 望 你 能 马上 思考 与 哈 布 有 关 的 东 
西 oo 


因此 ， 问 题 可 以 这 样 简 人 定 一 个 URL， 我 们 如 何 找到 哈 希 函数 F ， 它 将 URL 映射 到 一 
个 简短 别名 : 


F(URL) = alias 


并 满足 以 下 条 件 : 
每 个 URL 只 能 映射 到 唯一 的 别名 每 个 别名 都 可 以 轻松 地 映射 回 唯一 的 URL 


第 二 个 条 件 是 运行 其 实 的 核心 ， 系 统 应 该 别名 查找 并 快速 重 定向 到 相应 的 URL。 


基本 解决 方案 


为 了 方便 起 见 ， 我 们 可 以 假设 别名 是 http://tinyurl.com/<alias_hash> ， alias_hash 是 固定 
长 度 的 字符 囊 。 


如 果 长 度 为 7， 和 包含 [A-z，a-z，06-9] ， 则 可 以 提供 62 ^7 -= 356g 亿 个 URL。 据说 在 写 这 
篇 文章 的 时 候 ， 有 大 约 6.44 亿 个 网 址 。 


首先 ， 我 们 将 所 有 的 映射 存储 在 一 个 数据 库 中 。 一 个 简单 的 方法 是 使 用 alias_hash 作为 每 个 
映射 的 ID， 可 以 生成 一 个 长 度 为 7 的 随机 字符 串 。 


所 以 我 们 可 以 先 存储 <ID，URL> 。 当 用 户 输入 一 个 长 URL http://www.gainlo.co 时 ， 系 统 创 
建 一 个 随机 的 7 个 字符 的 字符 串 ， 如 abcd123 作为 ID， 并 插入 条 
目 <"abcd123", "http://www.gainlo.co"> 进入 数据 库 。 


在 运行 期 间 ， 当 有 人 访问 http://tinyurl.com/abcd123 时 ， 我 们 通过 ID abcd123 查找 并 重 定 
向 到 相应 的 URL http://www.gainlo.co 。 


性 能 VS 灵活 性 


这 个 问题 有 很 多 后 续 问 题 。 我 想 在 这 ee 寸 使 用 GUID (全 局 唯一 标 
识 符 ) 作为 条 目 ID， 在 这 个 问题 中 ， 与 自 增 ID 相 比 利 次 是 什么 


ee ， 当 你 ee ， ee 区 ee ID 不 是 连续 的 ， 因此 
每 次 插入 新 记录 时 ， 0 
更 容易 - 只 需 转 到 最 后 一 页 。 


所 以 优化 这 个 的 一 种 方法 是 使 用 增 量 ID 。 每 次 插入 一 个 新 的 URL 时 ， 我 们 都 会 为 新 条 目 增加 
1。 我 们 还 需要 一 个 散 列 函数 ， 将 每 个 整数 ID 映射 到 一 个 7 个 字符 的 字符 串 。 如 果 我 们 把 每 
个 字符 串 看 作 一 个 62 进 制 的 数字 ， 了 映射 应 该 很 容易 (当然 ， 还 有 其 他 方法 ) 。 


另 一 方面 ， 使 用 增 量 ID 将 使 得 映射 更 不 灵活 。 例 如 ， 如 果 系 统 允许 用 户 设置 自 定 义 短 网 址 ， 


显然 GUID 解决 方案 更 容易 ， 因 为 对 于 任何 自 定义 短 网 址 ， 我 们 可 以 计算 相应 的 哈 希 作为 条 
目 ID。 


注意 : 在 这 种 情况 下 ， 我 们 可 能 不 使 用 随机 生成 的 键 ， 而 是 使 用 更 好 的 散 列 函数 将 任何 短 网 
址 映射 为 ID， 例如 ， 一 些 传统 的 散 列 函数 ， 如 CRC32，SHA-1 等 。 


开销 


我 很 少 询问 如 何 评估 系统 的 开销 。 对 于 插入 /查询 ， 我 们 已 经 在 上 面 讨论 过 了 。 所 以 我 会 更 关 
注 存 储 开销 。 


每 个 条 目 存储 为 <ID,，URL> ， 其 中 ID 是 一 个 7 个 字符 的 字符 串 。 假 设 最 大 URL 长 度 为 2083 
个 字符 ， 则 每 个 条 目 需要 7 * 4 + 2683 * 4 = 8.4 KB 。 如 果 我 们 存储 一 百 万 个 URL 映射 ， 我 
们 需要 大 约 8.4G 的 存储 空间 。 


如 果 我 们 考虑 数据 库 索 引 的 大 小 ， 我 们 也 可 能 存储 其 他 信息 ， 比 如 用 户 ID， 日 期 等 等 ， 这 肯 
定 需要 更 多 的 存储 空间 。 


多 台 机 器 
显然 ， 当 系统 发 展 到 一 定 规模 时 ， 单 台 机 器 不 能 存储 所 有 的 映射 。 我 们 如 何 扩 展 多 个 实例 ? 


更 普遍 的 问题 是 如 何在 多 个 机 器 上 存储 散 列 映射 。 如 果 你 知道 分 布 式 键 值 存 储 ， 你 应 该 知道 
这 可 能 是 一 个 非常 复杂 的 问题 。 我 只 会 在 这 里 讨论 概要 思想 ， 如 果 你 对 所 有 这 些 细节 感 兴 
趣 ， 我 建议 你 阅读 Dynamo 文章 : 亚马逊 的 高 可 用 键 值 存储 。 


简 而 言 之 ， 如 果 要 在 多 个 实例 中 存储 大 量 的 键 值 对 ， 则 需要 设计 查找 算法 ， 以 便 为 给 定 的 查 
找 键 寻 找 相 应 的 机 器 。 
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例如 ， 如 果 传 入 的 短 名 称 是 http://tinyurl.com/abcd123 ， 则 基于 键 abcd123 ， 系 统 应 该 知道 
哪个 机 器 存储 了 数据 库 ， 它 包含 这 个 键 的 条 目 。 这 与 数据 库 分 片 完 全 一 样 。 


一 种 常见 的 方法 是 让 机 器 充当 代理 ， 负 责 根据 查找 键 ， 将 请 求 分 派 到 相应 的 后 端 存 储 器 。 后 
端 存 储 器 是 实际 上 存储 映射 的 数据 库 。 他 们 可 以 通过 各 种 方式 拆 分 ， 如 使 
用 hash(key) % 1924 将 映射 划分 到 1024 个 存储 器 中 。 


有 很 多 细节 可 以 使 系统 变 得 复杂 ， 我 只 是 在 这 里 举 几 个 例子 : 


。 复制 。 数 据 存 储 可 能 会 因 各 种 随机 原因 而 崩溃 ， 因 此 常见 的 解决 方案 是 每 个 数据 库 都 有 
多 个 副本 。 这 里 可 能 有 很 多 问题 : 如 何 复 制 实例 ? 如何 快速 恢复 ?如 何 保持 读 / 写 一 致 ? 

e 重新 分 片 。 当 系统 扩展 到 另 一 个 级 别 时 ， 原 始 分 片 算 法 可 能 无 法 正常 工作 。 我 们 可 能 需 
要 使 用 新 的 散 列 算法 来 对 系统 重新 分 片 。 如 何在 保持 系统 运行 的 同时 ， 对 数据 库 重新 分 
片 ， 可 能 是 一 个 极其 困难 的 问题 。 

。 并 发 。 可 以 有 多 个 用 户 同时 插入 相同 的 URL 或 编辑 相同 的 别名 。 用 一 台 机 器 ， 你 可 以 用 
一 个 锁 来 控制 它 。 但 是 ， 当 你 扩展 到 多 个 实例 时 ， 情 况 会 变 得 更 加 复杂 。 
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我 觉得 你 已 经 意识 到 这 个 问题 乍 一 看 并 不 复杂 ， 但 是 当 你 深入 挖掘 更 多 的 细节 ， 特 别 是 考虑 
规模 问题 的 时 候 ， 会 遇 到 很 多 后 续 问 题 。 

我 们 在 之 前 的 文章 中 说 过 ， 使 用 的 具体 技术 并 不 重要 。 冀 正 重要 的 是 如 何 解 决 这 个 问题 的 概 
要 思想 。 这 就 是 我 不 提 Redis ，RebornDB 等 东西 的 原因 。 

再 次 ， 有 无 限 的 方式 用 于 进一步 扩大 这 个 问题 。 我 想 用 这 篇 文章 作为 起 点 ， 来 使 你 熟悉 系统 
设计 面试 。 

如 果 你 觉得 这 篇 文章 有 帮助 ， 请 分 享 给 你 的 朋友 ， 我 会 很 感谢 。 你 也 可 以 在 这 里 查看 更 多 的 
系统 设计 面试 问题 和 分 析 。 


如 何人 设计 Google Docs 


原文 : How To Design Google Docs 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 
系统 设计 面试 可 能 相当 开放 ， 需 要 广泛 的 知识 。 


为 了 准备 好 这 样 的 面试 ， 重 要 的 是 要 履 盖 不 同 的 领域 ， 而 不 是 集中 在 单一 的 主题 。 我 们 花 了 
很 多 时 间 选 择 系统 设计 问题 进行 分 析 ， 我 们 的 主要 标准 是 : 


。 这 个 问题 是 流行 的 和 经 典 的 
。 我 们 关心 我 们 选择 的 问题 的 多 样 性 
。 分 析 有 助 于 其 他 面试 问题 


本 周 ， 我 们 想 讨 论 如 何 设 计 Google 文档 。 你 会 发 现 它 与 我 们 以 前 的 问题 的 分 析 有 很 大 的 不 
同 。 


问题 - 如 何 设 计 Google 文档 


我 会 假设 每 个 人 都 知道 Google 文 档 是 什么 ， 不 会 浪费 时 间 介 绍 这 个 产品 。 


乍 一 看 ， 这 个 问题 看 起 来 相当 普遍， 事实 确实 如 此 。 Google 文档 是 一 个 庞大 的 系统 ， 具 有 很 
功能 。 如 果 你 花 几 分 钟 时 间 思 考 这 个 问题 ， 则 可 能 会 意识 到 Google 文档 比 看 起 来 复杂 得 
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作为 一 个 面试 官 ， 我 不 想 把 讨论 的 范围 限制 在 这 个 产品 的 特定 功能 上 。 相 反 ， 我 倾向 于 把 这 
个 问题 提出 来 ， 使 我 能 够 知道 候选 人 将 如 何 逐 步 解决 一 个 模糊 的 问题 。 


划分 为 组 件 


在 我 们 以 前 的 帖子 中 ， 我 们 已 经 多 次 强调 ， 当 问题 很 大 时 ， 建 议 提供 概要 解决 方案 。 抽 象 解 
决 方 案 的 一 种 方法 是 ， 将 大 系统 分 成 更 小 的 组 件 。 

显然 ，Google Docs 是 一 个 庞大 的 系统 ， 具 有 一 系列 功能 ， 包 括 文档 存储 ， 共 享 ， 格 式 化 ， 
编辑 等 。 事 实 上 ， 如 果 不 把 它 分 解 成 不 同 的 子 问题 ， 我 几乎 不 能 解决 这 么 大 的 问题 。 


如 果 你 没有 考虑 过 这 个 问题 ， 请 在 查看 我 们 的 分 析 之 前 ， 花 费 5-10 分 钟 的 时 间 8 2 
外 ， 值 得 注意 的 是 ， NE ， 那么 问题 就 是 开放 的 ， 
绝对 没 问题 的 。 


我 们 可 以 把 整个 系统 分 成 以 下 几 个 主要 部 分 : 


。 文件 存储 。 由 于 Google 文档 是 Google 云端 硬盘 的 一 部 分 ， 因 此 我 也 包含 了 存储 功能 。 
该 系统 允许 用 户 将 文件 (文档 ) 分 组 到 文件 夹 ， 并 支持 编辑 /创建 /删除 等 功能 。 它 像 一 个 
操作 系统 。 

。 在 线 编辑 和 格式 化 。 毫 无 疑问 ，Google 文档 的 核心 功能 之 一 就 是 在 线 编辑 。 它 支持 几乎 
所 有 的 微软 Office 操作 ， 也 许 更 多 。 

。 合作 。 Google Docs 允许 多 个 人 同时 编辑 单个 文档 ， 这 站 是 太 神奇 了 。 这 肯定 是 一 个 技 
术 挑 战 。 

。 访问 控制 。 你 可 以 与 你 的 朋友 分 享 文档 ， 并 给 予 不 同 的 权限 (所 有 者 ， 只 读 ， 允 许 评论 
等 ) 。 


这 里 忽略 了 一 些 不 太 重 要 的 功能 ， 像 插件 ， 拼 写 检 查 ， 发 布 到 网 络 等 等 。 


存储 和 格式 化 

我 将 这 两 个 话题 放 在 一 起 ， 因 为 在 实现 存储 和 格式 化 的 过 程 中 ， 会 创建 一 个 Google Docs 非 
常 基本 的 初级 的 版 本 。 即 使 没有 访问 控制 和 协作 ， 单 个 用 户 仍然 可 以 使 用 它 来 编辑 文档 。 
另外 ， 存 储 和 格式 化 在 一 定 程度 上 可 以 看 作 是 后 端 和 前 端 


恕 我 直言 ，Google Docs (或 Google Drive) 的 存储 系统 非常 接近 操作 系统 。 它 有 像 文件 来， 
文件 ， 所 有 者 等 概念 。 


因此 ， 构 建 这 样 的 系统 ， 基 本 积木 是 一 个 文件 对 象 ， 它 包含 内 容 ， 父 项 ， 所 有 者 以 及 其 他 元 
数据 ， 如 创建 日 期 。 父 项 代表 文件 天 关系 ， 根 目录 的 父 项 为 室 。 我 不 会 讨论 如 何 扩 展 系统 ， 
因为 构建 分 布 式 系统 可 能 非常 复杂 。 有 很 多 事情 要 考虑 ， 比 如 一 致 性 和 复制 。 


对 于 前 端的 格式 化 ， 一 个 有 趣 的 问题 是 ， 如 何 使 用 相应 格式 储存 文档 。 如 果 你 了 解 
Markdown， 那 绝对 是 最 好 的 解决 方案 之 一 。 尽 管 Google Docs 可 能 更 复杂 ， 但 Markdown 
的 基本 思想 仍然 适用 。 


Google Docs 最 酷 的 功能 之 一 是 可 以 同时 编辑 多 个 文档 。 你 将 如 何 设计 这 个 功能 ? 


说 实话 ， 这 不 是 一 个 容易 的 问题 。 你 不 能 只 让 每 个 人 自己 工作 ， 然 后 合并 每 个 人 的 副本 或 先 
取 最 后 一 次 编辑 。 如 果 你 已 经 党 试 了 协作 编辑 功能 ， 你 实际 上 可 以 看 到 对 方正 在 做 什么 ， 并 
获得 即时 反馈 。 


如 果 你 已 经 使 用 Git 进行 版 本 控制 ( 译 者 注 : 或 者 简单 的 diff 和 patch ) ， 这 里 的 一 些 想法 
可 以 是 类 似 的 。 首 先 ， 让 我 们 考虑 最 简单 的 情况 - 只 有 两 个 人 在 编辑 同一 个 文档 。 假 设 文档 


是 abc 


基本 上 ， 服 务 器 可 以 为 每 个 人 保留 量 份 相同 的 文档 ， 并 跟踪 完整 的 修订 历史 。 当 A 通过 在 开 
头 添加 x 来 编辑 文档 时 ， 这 个 改变 将 与 人 所 看 到 的 最 后 修订 一 起 发 送 到 服务 器 。 假 设 此 时 B 
删除 最 后 一 个 字符 c。， 并 且 这 个 改变 也 是 这 样 发 送 到 服务 器 。 


由 于 服务 器 知道 修改 在 哪个 版 本 上 进行 ， 因 此 会 相应 地 调整 更 改 。 更 具体 地 说 ，B 的 变化 是 
删除 第 三 个 字符 c ， 它 将 被 转换 为 删除 第 四 个 字符 ， 因 为 A 在 开头 添加 了 x 。 


这 就 是 所 谓 的 操作 转换 (Operational Tranformation ) 。 如 果 你 从 没 听 说 也 没关系 ， 基 本 思想 
是 根据 修改 和 其 他 合作 者 的 修改 来 转换 每 个 人 的 改动 。 


访问 控制 
Google 文档 允许 你 使 用 不 同 级 别 的 权限 邀请 合作 者 。 


朴素 的 解决 方案 不 应 该 很 难 。 对 于 每 个 文件 ， 你 可 以 维护 一 个 合作 者 列表 ， 带 有 相应 权限 如 
只 读 ， 所 有 者 等 。 当 一 个 人 想 做 特定 的 行动 ， 系 统 检查 他 的 权限 。 


通常 ， 我 想 问 一 下 这 种 访问 控制 系统 所 面临 的 挑战 是 什么 。 
众所周知 ， 将 系统 扩展 到 数 百 万 用 户 时 ， 可 能 会 有 很 多 问题 。 我 想 在 这 里 提 到 的 几 件 事 是 : 


e 速度 。 当 所 有 者 更 新 文件 夹 的 权限 (例如 删除 特定 的 查看 者 ) 时 ， 应 将 此 更 新 传播 给 其 
所 有 子 项 。 速 度 可 能 是 一 个 问题 。 

e 一 致 性 。 当 有 多 个 副本 时 ， 保 持 每 个 副本 的 一 致 性 尤其 重要 ， 特 别 是 当 多 个 人 同时 更 新 
权限 时 。 

e 传播 。 可 能 有 很 多 传播 情况 。 除 了 更 新 文件 夹 的 权限 应 该 反映 在 所 有 的 子 文件 之 外 ， 如 
果 你 向 某 人 授予 文档 D 的 读 取 权限 ， 那 么 他 也 可 能 已 经 拥有 了 文档 D 的 所 有 父 文件 夹 的 
读 取 权 限 。 如 果 有 人 删除 了 D 文件 ， 我 们 可 能 会 撤销 D 的 父 文件 夹 的 阅读 权限 (也许 不 
是 ， 这 更 像 是 产品 决策 ) 。 
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同样 ，Gainlo 中 没有 人 从 事 过 Google Docs。 这 篇 文章 没有 教 你 如 何 从 头 开始 构建 Google 
Docs 。 

相反 ， 我 想 用 这 篇 文章 给 你 更 多 想法 ， 有 关 如 何 进 行 系统 设计 面试 和 如 何 解 决 模糊 问题 。 


设计 一 个 像 Google Docs 这 样 的 复杂 系统 可 能 会 让 人 感到 丽 惧 。 但 是 一 旦 你 把 系统 分 成 更 小 
的 组 件 ， 就 变 得 简单 多 了 。 


如 果 你 觉得 这 篇 文章 有 帮助 ， 请 分 享 给 你 的 朋友 ， 我 会 很 感谢 。 你 也 可 以 在 这 里 查看 更 多 的 
系统 设计 面试 问题 和 分 析 。 


~ N 局 ~ ~ ns 大 大 立 
设计 新 闻 推 送 系统 (第 一 部 分 ) 
原文 : Design News Feed System (Part 1) 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 


如 果 你 在 系统 设计 面试 问题 的 文章 上 关注 了 我 们 之 前 的 文章 ， 你 可 能 会 对 新 闻 推送 ( 译 者 
注 : 推送 、 订 阅 、 人 和 信息 流 都 是 Feed) 系统 有 多 么 常见 感到 惊讶 。 


无 论 你 是 在 制作 Twitter，Instagram 还 是 Facebook， 你 都 需要 某 种 新 闻 推 送 系统 来 显示 来 自 
关注 /好 友 的 更 新 。 


实际 上 ， 关 于 新 闻 推 送 有 一 些 有 趣 的 细节 ， 比 如 如 何 排序 ， 如 何 优化 发 布 等 。 所 以 在 这 篇 文 
章 中 ， 我 将 介绍 这 个 流行 的 问题 - 设计 新 闻 推 送 系统 。 


问题 
为 了 简单 起 见 ， 让 我 们 专注 于 设计 Facebook 的 新 闻 馈 送 系统 ， 因 为 不 同 的 产品 有 不 同 的 要 


简要 总 结 一 下 这 个 功能 ， 当 用 户 进入 他 们 的 主页 时 ， 他 们 会 以 特定 的 顺序 看 到 好 友 的 更 新 。 
推送 可 以 包含 图 片 ， 视 频 或 文本 ， 用 户 可 能 拥有 大 量 的 好 友 。 


那么 你 如 何 从 头 开始 设计 这 样 的 新 闻 推 送 系统 呢 ? 


村 问题 


如 果 你 还 没有 想 过 这 个 问题 ， 最 好 在 阅读 其 余部 分 之 前 自行 解决 。 虽 然 没 有 标准 答案 这 样 的 
东西 ， 但 是 通过 将 你 的 解决 方案 与 其 他 人 进行 比较 ， 仍 然 可 以 学 到 很 多 东西 。 
我 们 开始 吧 。 我 们 之 前 说 过 ， 面 对 如 此 庞大 而 模糊 的 系统 设计 问题 时 ， 最 好 是 把 大 问题 分 解 
成 子 问 题 ， 再 加 上 一 些 概要 思想 。 
对 于 新 闻 推 送 系统 ， 显 然 我 们 可 以 将 其 分 为 前 端 和 后 端 。 我 将 跳 过 前 端 ， 因 为 这 在 系统 设计 
面试 中 并 不 常见 。 对 于 后 端 来 说 ， 三 个 子 问 题 对 我 来 说 似乎 至 关 重 要 : 

e 数据 模型 。 我 们 需要 一 些 模型 来 存储 用 户 和 推送 对 象 。 更 重要 的 是 ， 当 我 们 试图 优化 系 

统 的 读 / 写 时 ， 有 很 多 的 权衡 。 接 下 来 我 会 详细 解释 
e@ 推送 排名 。 Facebook 的 排名 不 仅仅 按照 时 间 顺 序 排列 。 


。 推送 发 布 。 当 只 有 几 百 个 用 户 时 ， 发 布 可 能 是 微不足道 的 。 但 是 ， 如 果 有 数 百 万 甚至 数 
十 亿 的 用 户 ， 这 可 能 开销 较 大 。 所 以 这 里 有 一 个 规模 问题 。 


数据 模型 


有 两 个 基本 对 象 : 用 户 和 推 文 。 对 于 用 户 对 象 ， 我 们 可 以 存储 用 户 ID， 名 称 ， 注 册 日 期 等 
等 。 对 于 推 文 对 象 ， 有 推 文 ID， 推 文 类 型 ， 内 容 ， 元 数据 等 ， 它 们 也 应 该 支持 图 片 和 视频 。 


如 果 我 们 使 用 关系 数据 库 ， 我 们 还 需要 建立 两 个 关系 : 用 户 与 推 文 的 关系 和 好 友 关 系 。 前 者 
非常 简单 。 我 们 可 以 创建 一 个 用 户 - 推 文 表 ， 存 储 用 户 ID 和 相应 的 推 文 | D。 对 于 单个 用 户 ， 

如 果 他 已 经 发 布 了 多 个 推 文 ， 则 可 以 包含 多 个 条 目 。 

对 于 好 友 关 系 ， 邻 接 表 是 最 常见 的 方法 之 一 。 如 果 我 们 将 所 有 的 用 户 看 作 巨 型 图 中 的 节点 
ee 我 们 可 以 使 用 好 友 表 来 为 边 (好 友 关系 ) 建 模 ， 它 的 每 个 条 目 
包含 两 个 用 户 ID 。 这 样 做 ， 大 部 分 的 操作 都 非常 方便 ， 例 如 获取 用 户 的 所 有 朋友 一 样 ， 

0 


数据 模型 - 续 


在 上 面 的 设计 中 ， 让 我 们 看 看 ， 当 我 们 从 用 户 的 所 有 朋友 获取 推送 时 ， 会 发 生 什么 


系统 将 首先 从 好 友 表 中 获取 所 有 好 友 的 用 户 ID。 然 后 从 推 文 表 中 为 每 个 好 友 提 取 所 有 的 推广 
ID 。 最 后 ， 根 据 推 文 表 中 的 推 文 ID 提取 推 文 内 容 。 你 可 以 看 到 我 们 需要 执行 三 个 连接 ， 这 会 
影响 性 能 。 


一 个 常见 OD 接 推 
ee 。 这 种 方法 被 称 为 去 规范 化 ， 这 意味 着 通过 添加 宛 余 数据 ， 我 们 可 以 优化 读 取 性 能 ( 减 
连接 数量 ) 。 
译 者 注 : 这 里 有 些 N00 推 文 只 有 一 个 作者 ， 所 以 作者 ID 完全 可 以 放 进 推 文 表 
里 面 ， 而且 没 有 元 


缺点 是 显而易见 的 : 


e@ 数据 宛 余 。 我 们 正在 存储 宛 余 数据 ， 占 用 存储 空间 (经 典 的 时 空 关 系 ) 。 
e。 数据 一 致 性 。 每 当 我 们 更 新 推 文 时 ， 我 们 需要 更 新 推 文 表 和 用 户 - 推 文 表 。 否 则 ， 数 据 不 
一 致 。 这 增加 了 系统 的 复杂 性 。 


请 记 住 ， 没 有 一 种 方法 总 是 比 其 他 方法 更 好 (规范 化 与 去 规范 化 ) 。 这 是 你 想 要 优化 读 取 还 
是 写 入 的 问题 。 


排名 


排列 推 文 最 直接 的 方法 是 创建 时 间 。 显 然 ，Facebook 做 的 不 止 于 此 。“ 重 要 ”的 推 文 排 在 最 前 
面 0° 


在 跳 到 排名 算法 之 前 ， 我 通常 会 问 为 什么 要 改变 排名 ?我 们 如 何 评 估 新 排名 算法 是 否 更 好 ? 
如 果 候 选 人 自己 提出 这 些 问 题 ， 这 绝对 令 人 印 银 深刻 。 


优化 排名 的 原因 不 是 看 起 来 是 对 的 。 相 反 ， 一 切 都 应 事 出 有 因 。 假 设 有 几 个 我 们 关心 的 核心 
指标 ， 例 如 用 户 粘 性 ， 留 存 率 ， 广 告 收入 等 。 更 好 的 排名 系统 可 以 显 着 改善 这 些 指标 ， 这 也 
回答 了 如 何 评估 是 否 取得 进展 。 

所 以 回 到 问题 - 我 们 应 该 如 何 排列 推 文 ? 一 个 常见 的 策略 是 根据 各 种 特征 计算 推 文 得 分 ， 并 根 
据 分 数 对 推 文 进行 排名 ， 这 是 所 有 排名 问题 最 常用 的 方法 之 一 。 

更 具体 地 说 ， 我 们 可 以 选择 几 个 与 推 文 重要 性 最 相关 的 特征 ， 例 如 ， 分 享 /喜欢 /评论 的 数量 ， 
更 新 的 时 间 ， 推 文 是 否 有 图 像 /视频 等 。 然 后 ， 可 以 通过 这 些 特征 来 计算 得 分 ， 可 能 是 线性 组 
合 。 对 于 一 个 简单 的 排名 系统 来 说 ， 这 通常 足够 了 。 


在 写 这 篇 文章 之 前 ， 我 没有 想到 会 有 这 么 多 细节 ， 所 以 我 不 得 不 把 这 个 文章 一 分 为 二 。 


在 第 二 部 分 中 ， 我 们 将 讨论 排名 ， 推 文 发 布 的 扩展 性 问题 ， 以 及 其 他 有 趣 的 主题 的 更 多 细 


如 果 你 觉得 这 篇 文章 有 帮助 ， 请 分 享 给 你 的 朋友 ， 我 会 很 感谢 。 你 也 可 以 在 这 里 查看 更 多 的 
系统 设计 面试 问题 和 分 析 。 


设计 新 闻 推 送 系 统 (第 二 部 分 ) 

原文 : Design News Feed System (Part 2) 

译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 

自豪 地 采用 谷歌 翻译 
这 是 系统 设计 面试 问题 分 析 - 设计 新 闻 推 送 系 统 的 第 二 部 分 。 如 果 你 还 没有 看 我 们 的 第 一 篇 文 
章 ， 请 查看 它 。 


这 里 只 是 简要 地 总 结 一 下 我 们 在 第 一 部 分 中 讨论 过 的 内 容 。 我 们 从 一 个 简单 的 问题 开始 - 如 何 
设计 Facebook 的 新 闻 推 送 系统 ， 人 允许 用 户 看 到 来 自 好 友 的 推送 /更 新 。 我 们 使 用 关系 数据 库 
对 整个 系统 进行 建 模 ， 并 讨论 了 不 同 设 计 的 优 缺点 。 


排名 是 新 闻 推 送 系统 的 一 个 有 趣 的 话题 。 我 们 在 前 一 篇 文章 中 解释 了 一 些 整体 的 排名 思路 。 
在 这 篇 文章 中 ， 我 们 将 继续 讨论 排名 ， 还 包括 推送 发 布 等 主题 。 


排名 - 续 


排名 的 整体 思路 是 首先 选择 相关 的 特征 /信号 ， 然 后 弄 清 楚 如 何 组 合 它 们 来 计算 最 终 分 数 。 这 
种 方法 在 很 多 现实 系统 中 非常 普遍 。 


正如 你 所 看 到 的 ， 这 里 重要 的 是 两 件 事 情 - 特征 和 计算 算法 。 为 了 让 你 更 好 地 了 解 它 ， 我 想 简 
单 介绍 一 下 Facebook 上 的 排名 实际 上 的 工作 方式 - EdgeRank。 


对 于 每 个 新 闻 更 新 ， 当 其 他 用 户 与 该 推 文 交互 时 ， 他 们 正 就 创建 了 一 个 东西 ，Facebook 称 之 
为 “ 边 "， 其 中 包括 例如 喜欢 和 评论 之 类 的 操作 。 


首先 ， 我 们 来 看 看 使 用 哪些 特性 来 评估 更 新 /推送 的 重要 性 。 边 的 排名 基本 上 是 使 用 三 个 信 
号 : 亲密 度 ， 边 权重 和 时 间 衰 减 。 


e。 亲密 度 ( u ) 。 对 于 每 个 新 闻 推 送 源 ， 亲 密度 都 会 评估 你 与 此 用 户 的 距离 。 例 如 ， 你 更 
可 能 关心 你 的 亲密 好 友 的 推送 ， 而 不 是 刚刚 遇 到 的 人 。 你 可 能 会 问 如 何 计 算 亲 密度 ， 我 
很 快 会 讨论 它 。 

。 边 权 重 ( e ) 。 边 权重 基本 上 反映 了 每 个 边 的 重要 性 。 例 如 ， 评 论 比 喜欢 更 重要 。 

e。 时 间 衰 减 〈《 d ) 。 故 事 越 老 ， 用 户 越 不 喜欢 它 。 

那么 Facebook 如 何 通过 这 三 个 特征 进行 排名 呢 ? 计算 算法 非常 简单 。 对 于 你 创建 的 每 个 推 
文 ， 将 每 条 边 的 这 些 因子 乘 起 来 ， 然 后 将 边 的 得 分 相 加 ， 就 得 到 了 更 新 的 EdgeRank。 而 且 
它 越 高 ， 你 的 更 新 就 越 有 可 能 出 现在 用 户 的 推送 中 。 


我 们 可 以 做 同样 的 事情 来 评估 亲密 度 。 


可 以 用 各 种 因素 来 反映 两 个 人 的 距离 。 首 先 ， 像 评论 ， 标 签 ， 分 享 ， 点 击 等 显 式 交互 是 我 们 
应 该 使 用 的 强 有 力 的 信号 。 显 然 ， 每 种 类 型 的 互动 应 该 有 不 同 的 权重 。 例 如 ， 评 论 应 该 比 总 


欢 多 得 多 。 


将 


次 ， 还 要 跟踪 时 间 因 素 。 也 许 你 曾经 和 一 个 好 友 进 行 过 很 多 的 交流 ， 但 最 近 还 是 比较 少 
见 。 在 这 种 情况 下 ， 我 们 应 该 降低 亲密 度 。 所 以 对 于 每 一 个 互动 ， 我 们 也 应 该 考虑 时 间 衰 减 
因子 。 


作为 排名 部 分 的 总 结 ， 我 希望 这 个 排名 的 常 用 方法 可 以 成 为 你 的 收获 。 另外 ， ，EdgeRank 在 
2010 年 首次 发 布 ， 可 能 已 经 过 时 了 。 


推送 发 布 


当 用 户 加 载 来 自 他 的 好 友 的 所 有 推送 时 ， 这 可 能 是 开销 很 大 的 行为 。 请 记 住 ， 用 户 可 能 有 成 
千 上 万 的 好 友 ， 他 们 每 个 人 都 可 以 发 布 大 量 的 更 新 ， 特 别 是 对 于 高 端 用 户 。 要 加 载 来 自 好 友 
的 所 有 推 文 ， 系 统 至 少 需要 两 个 连接 (获取 好 友 列 表 和 推 文 列表 ) 。 


那么 如 何 优化 和 扩展 推送 发 布 系统 呢 ? 
基本 上 有 两 种 常见 的 方式 - 推 和 拉 。 


对 于 推送 方式 ， 一 旦 用 户 发 布 了 一 个 推 文 ， 我 们 立即 将 这 个 推 文 (实际 上 是 推 文 的 指针 ) 推 
送 给 他 的 所 有 好 友 。 优 点 是 在 提取 推 文 时 ， 不 需要 浏览 好 友 列 表 并 获取 来 自 每 个 好 友 的 推 
文 。 它 显 着 减少 了 读 取 操 作 。 但 是 ， 缺 点 也 是 显而易见 的 。 它 增加 了 写 操 作 ， 特 别 是 对 于 有 
大 量 好 友 的 人 来 说 。 

对 于 拉 取 方式 ， 只 有 用 户 正在 加 载 其 主页 时 ， 才 会 提取 推 文 。 因 此 ， 推 文 数据 在 创建 后 不 需 
要 立即 发 送 。 你 可 以 看 到 这 种 方法 优化 了 写 操作 ， 但 是 即使 在 使 用 非 规 范 化 之 后 ， 获 取 数 据 
也 可 能 很 慢 (如 果 你 不 了 解 它 ， 请 查看 我 们 之 前 的 文章 ) 。 


这 两 种 方法 在 某 些 情况 下 都 能 很 好 地 工作 ， 而 且 最 好 了 解 它们 的 优点 和 缺点 。 


选择 性 扇 出 (fanout ) 


将 活动 推 给 所 有 好 友 或 粉丝 的 过 程 称 为 扇 出 。 所 以 推送 方式 也 被 称 为 写 时 扇 出 ， 而 拉 入 方式 
则 是 加 载 时 局 出 。 


在 这 里 ， 我 想 问 问 你 是 否 有 任何 方法 ， 来 进一步 优化 扁 出 过 程 ? 


事实 上 ， 你 可 以 将 两 者 结合 。 具 体 而 言 ， 如 果 你 主要 使 用 推送 方式 ， 则 可 以 做 的 是 ， 禁 用 高 
级 用 户 的 扇 出 ， 而 其 他 人 只 能 在 读 取 期 间 加 载 更 新 。 这 个 想法 是 ， 推 送 操作 对 于 高 级 用 户 来 
说 可 能 开销 很 大 ， 因 为 他 们 要 通知 很 多 好 友 。 通 过 禁用 他 们 的 扇 出 ， 我 们 可 以 节省 大 量 的 资 
源 。 实 际 上 Twitter 采用 这 种 方法 后 已 经 有 了 很 大 的 改进 


同样 的 道理 ， 一 旦 用 户 发 布 一 个 推 文 ， 我 们 也 可 以 将 扁 出 限制 在 他 的 活跃 好 友 。 对 于 非 活 跃 
用 户 ， 大 多 数 时 候 推 送 操 作 是 个 浪费 ， 因 为 他 们 将 永远 不 会 回来 使 用 推送 。 


总 疆 
(AEN 一 口 


如 果 遵 循 80-20 规则 ， 则 80% 的 成 本 来 自 20% 的 功能 /用 户 。 因 此 ， 优 化 确实 涉及 瓶颈 的 确 


je 
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此 外 ， 推 送 系 统 是 一 个 非常 受 欢 迎 的 话题 ， 因 为 它 现在 被 如 此 多 的 产品 广泛 使 用 。 如 果 你 对 
这 个 主题 感 兴趣 ， 并 想 进 一 步 探索 ， 我 建议 你 看 看 下 面 的 资源 : 


e 雅虎 研究 的 新 模型 
e Etsy 的 活动 推送 架构 
e Twitter 的 方法 


设计 Facebook 聊天 功能 


原文 : Design Facebook Chat Function 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 
准备 系统 设计 面试 的 最 有 趣 的 部 分 之 一 ， 就 是 你 可 以 了 解 很 多 如 何 构建 现 有 系统 的 细节 。 


为 了 使 每 周 的 博文 更 有 帮助 ， 我 想 涵盖 广泛 的 主题 。 我 们 一 直 在 谈论 推荐 这 样 的 东西 ， 在 过 
去 的 几 周 里 排名 很 高 ， 这 次 我 想 要 介绍 一 些 不 同 的 东西 。 


问题 


我 们 从 一 个 非常 简单 的 问题 开始 - 如 何 设 计 Facebook 聊天 功能 ? 


网 


Facebook 花 $19B 购买 了 Whatsapp， 而 Facebook Messenger 最 近 站 的 很 受 欢 迎 ， 聊 天 功 
能 绝对 是 一 个 热门 话题 。 所 以 在 这 篇 文章 中 ， 我 很 乐意 谈论 它 。 

这 里 提 到 几 件 事情 。 首 先 ， 正 如 我 在 之 前 的 文章 中 提 到 的 ， 系 统 设 计 面 试 可 能 非常 多 样 化 。 
这 主要 取决 于 面试 官 决定 讨论 哪个 方向 。 因 此 ， 即 使 在 相同 的 问题 上 ， 不 同 的 面试 官 也 可 能 


完全 不 同 的 讨论 ， 你 不 应 该 期 望 这 篇 文 草 是 一 个 标准 答案 。 


另外 ， 我 从 来 没有 在 Facebook Messenger 或 Whatsapp 中 工作 过 。 所 有 的 讨论 都 基于 
Gainlo 团队 的 分 析 。 


基础 设施 


如 前 所 述 ， 最 好 有 一 个 概要 解决 方案 ， 并 谈论 整体 的 基础 设 
经 验 ， 你 可 能 会 发 现 想 出 一 个 基本 的 解决 方案 并 不 容易 。 但 
个 非常 朴素 的 解决 方案 ， 并 在 稍 后 进行 优化 。 


施 。 如 果 你 之 前 没有 消息 应 用 的 
是 这 完全 没 问 题 。 让 我 们 想 出 一 


基本 上 ， 构 建 消息 应 用 最 常用 的 方法 之 一 ， 就 是 拥有 一 个 聊天 服务 器 ， 作 为 整个 系统 的 术 
心 。 消 息 到 达 时 ， 不 会 直接 发 送 给 接收 者 。 相 反 ， 它 会 转 给 聊天 服务 器 并 先 存储 在 那里 。 然 
后 ， 根 据 接 收 者 的 状态 ， 服 务 器 可 以 立即 向 他 发 送 消 息 或 发 送 推送 通知 。 


更 详细 的 流程 如 下 所 示 : 


e 用 户 A 想 要 向 用 户 B 发 送 消 息 Hello Gainlo ° 首先 将 消 息 发 送 到 聊天 服务 器 
e。 聊天 服务 器 收 到 该 消息 ， 并 将 确认 发 送 回 A， 表 示 收 到 该 消息 。 根 据 该 产品 ， 前 端 可 能 


会 在 A 的 用 户 界 面 中 显示 单 复 选 标记 。 
。 情况 1 : 如 果 B 在 线 并 连接 到 聊天 服务 器 ， 那 很 好 。 聊 天 服务 器 只 是 将 消息 发 送 给 B. 
e@ 情况 2 : 如 果 B 不 在 线 ， 则 聊天 服务 器 向 B 发 送 推送 通知 。 
。B 收 到 该 消息 ， 并 向 聊天 服务 器 发 回 确认 。 
e 聊天 服务 器 通知 A，B 接收 到 消息 ， 并 在 A 的 用 户 界面 中 使 用 双 复 选 标记 进行 更 新 。 


实时 


一 旦 达到 一 定 的 水 平 ， 整 个 系统 可 能 开销 大 而 低 效 。 那 么 我 们 可 以 通过 什么 方式 来 优化 系 
统 ， 以 便 支 持 大 量 的 并 发 请 求 ? 


有 很 多 方法 。 这 里 一 个 显而易见 的 开销 就 是 ， 当 向 接收 者 传递 消息 时 ， 聊 天 服务 器 可 能 
产生 OS 进程 /线程 ， 最 后 初始 化 HTTP (可 能 是 其 他 协议 ) 请 求 并 关闭 连接 。 事 实 上 ， 
消息 都 会 发 生 这 种 情况 。 即 使 我 们 采取 相反 的 方式 ， 接 收 者 一 直 请 求 服 务 器 来 检查 是 
消息 ， 但 仍然 开销 很 大 。 


一 个 解决 方案 是 使 用 HTTP 长 连接 。 简 而 言 之 ， 接 收 者 可 以 通过 长 连接 发 出 HTTP GET 请 
求 ， 直 到 聊天 服务 器 返回 任何 数据 才 会 返回 。 每 个 请 求 将 在 超时 或 中 断 时 重新 建立 。 这 种 方 
法 在 响应 时 间 ， 吞 吐 量 和 开销 方面 有 很 多 优势 。 


如 果 你 想 了 解 HTTP 长 连接 的 更 多 信息 ， 你 可 以 查看 BOSH 。 


在 线 通知 


Facebook 聊天 的 另 一 个 很 酷 的 功能 是 显示 在 线 的 有 朋友。 虽然 这 个 功能 年 一 看 似乎 很 简单 ， 但 
它 极 大 地 改善 了 用 户 体验 ， 绝 对 值得 讨论 。 如 果 你 被 要 求 设计 这 个 功能 ， 你 会 怎么 做 ? 


显然 ， 最 简单 的 方法 是 ， 一 旦 用 户 在 线 ， 他 会 向 所 有 的 朋友 发 送 通 知 。 但 是 ， 如 何 评估 这 
开销 ? 


在 高 峰 时 段 ， 我 们 大 致 需要 0( 平 均 朋 友 数 * 峰 值 用 户 数 ) 的 请 求 ， 这 在 有 数 百 万 用 户 的 情况 下 可 能 
会 很 多 。 而 这 个 开销 甚至 可 能 比 信 ee 。 改进 它 的 一 个 想法 是 ， 减 少 不 必要 的 请 
求 。 例 如 ， 只 有 当 这 个 用 户 重 新 加 载 页面 或 发 送 消 息 时 ， 我 们 才 发 出 通知 。 换 和 句 话说 ， 我 们 
可 以 将 范围 限制 为 “非常 活跃 的 用 户 ”。 用 户 已 经 在 线 五 分 钟 之 前 ， 我 们 不 会 发 送 通 知 。 
这 解决 了 用 户 显示 在 线 并 立即 离开 的 情况 。 


作 


总 结 

还 有 很 多 其 他 的 话题 ， 我 都 没有 在 这 篇 文章 中 讨论 ， 例 如 ， 如 果 你 深入 了 解 网 络 ， 我 们 可 以 
讨论 在 连接 中 可 以 使 用 什么 网 络 协议 。 另 外 ， 如 何 处 理 系统 错误 和 复制 数据 也 可 以 是 有 趣 
的 ， 因 为 聊天 应 用 是 完全 不 同 的 。 


如 果 你 想 和 我 进一步 讨论 ， 请 随时 留 下 评论 。 


如 何 为 Twitter 设计 趋势 算 ; 


原文 : How to Design a Trending Algorithm for Twitter 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 

自豪 地 采用 谷歌 翻译 


从 Twitter 的 起 初 ， 趋 势 话 题 已 经 成 为 这 个 流行 产品 的 核心 特征 之 一 。 从 Twitter 的 趋势 中 ， 
你 可 以 很 容易 得 知 现在 流行 什么 。 难 怪 许 多 公司 喜欢 在 系统 设计 面试 中 让 候选 人 设计 趋势 算 
法 。 

我 们 在 之 前 的 文章 - 如 何 设计 Twitter (第 二 部 分 ) 中 简要 介绍 了 这 个 主题 。 由 于 这 个 问题 如 
此 受 欢 迎 ， 我 决定 写 一 篇 它 的 深度 文章 。 

同样 ，Gainlo 没有 一 个 人 在 Twitter 工作 过 ， 不 同 的 面试 官 也 有 自己 的 系统 设计 面试 风格 。 所 
以 ， 这 篇 文章 的 重点 绝对 不 是 给 你 这 个 问题 的 标准 答案 ， 而 是 给 你 这 个 话题 的 更 多 想法 。 


j=] 题 
由 于 Twitter 如 此 流行 ， 我 只 会 在 这 里 简单 地 澄清 这 个 问题 。 


对 于 为 Twitter 设计 一 个 趋势 算法 ， 系 统 应 该 能 够 提供 当前 流行 的 主题 列表 。 Wg 
题 弄 得 一 般 而 且 有 点 含糊 ， 因 为 我 想 看 看 候选 人 如 何 处 理 这 样 一 个 开放 式 的 问题 。 例 如 
里 的 流行 没有 明确 定义 和 . 


一 般 想 法 


如 果 你 之 前 没有 想 过 这 个 问题 ， 我 会 建议 你 至 少 花 15 分 钟 考虑 一 下 。 有 自己 的 解决 方案 ， 然 
后 与 其 他 人 比较 总 是 比较 好 。 


好 的 ， 我 们 开始 。 


一 个 普遍 的 想法 是 让 我 们 用 一 个 词 (或 一 个 词 ) 来 表示 一 个 主题 ， 它 可 以 是 一 个 标签 

(如 #gainlo ) 或 者 只 是 一 个 单词 (如 唐纳德 : 特 朗 普 ) 。 如 果 与 过 去 相 比 ， 一 个 术语 在 最 近 
的 推 文 中 大 量 提 到 ， 那 么 这 个 术语 应 该 被 认为 是 流行 的 。 例 如 ， 如 果 今 天 有 数 百 万 人 在 讨 
论 #gainlo ， 但 是 过 去 只 有 数 百 人 谈论 这 个 问题 ， #gainlo 当然 应 该 是 当前 的 热门 话题 。 


我 们 应 该 与 过 去 的 检索 量 比较 ， 是 因为 对 于 "星期 一 或 “天气 ?这样 的 常见 词汇 来 说 ， 它 们 的 检 
索 量 在 任何 时 候 都 非常 大 ， 在 大 多 数 情况 下 都 不 应 该 选择 为 趋势 。 


综 上 所 述 ， 基 本 思路 是 ， 对 于 每 个 术语 而 言 ， 如 果 最 近 几 个 小 时 内 的 检索 量 与 前 X 天 的 检索 
量 之 比 很 高 ， 则 将 其 视 为 一 个 热门 话题 。 


基础 设施 


当然 ， 热 门 话 题 应 该 立即 显示 ， 这 意味 着 我 们 可 以 要 求 用 户 等 待 一 个 小 时 ， 以 便 系 统 可 以 计 
算 和 排列 所 有 术语 。 那么 最 低 的 基础 设施 是 什么 样 的 ? 


显然 ， 考 虑 到 每 天 的 大 量 推 文 ， 计 算 可 能 开销 较 大 。 在 这 种 情况 下 ， 我 们 可 以 考虑 使 用 离线 
流水 线 。 


更 具体 地 说 ， 我 们 可 以 让 多 个 流水 线 在 离线 状态 下 运行 ， 计 算 每 个 术语 的 比率 并 将 结果 输出 
到 某 个 存储 系统 。 假设 短 时 间 内 没有 大 的 差别 ， 流 水 线 可 以 每 隔 几 小 时 刷新 一 次 。 所 以 当 用 
户 从 前 端 检查 热门 话题 的 时 候 ， 我 们 可 以 预先 计算 出 这 个 结果 。 


基本 的 做 法 真 的 很 朴素 ， 你 有 什么 想法 来 改进 它 吗 ? 可 以 从 任何 角度 来 看 ， 如 降低 系统 开 
销 ， 提 高 数据 质量 等 。 下 面 我 将 介绍 几 点 思路 。 


绝对 检索 量 


如 果 你 只 是 按照 上 面 的 解释 计算 比例 ， 我 很 肯定 会 选择 一 些 非 常 奇怪 的 术语 。 想 想 下 面 的 情 
况 ， 假 300 人 在 推 特 上 发 表 一 个 奇 4 怪 的 话题 #gailo-mock-interview ， 过 去 从 来 没有 人 
谈论 过 这 个 话题 。 比 率 〈《 过 去 几 小 时 内 的 检索 量 /过 去 X 天 内 的 检索 量 ) 为 1， 可 以 列 在 列表 
a 8 


显然 ， 这 不 是 我 们 想 要 展示 给 用 户 的 东西 。 我 相信 你 已 经 在 这 里 发 现 了 问题 。 如 果 绝 对 量 不 
够 大 ， 可 能 会 选择 一 些 不 受 欢迎 的 术语 。 你 可 以 计 

算 最 近 几 个 小 时 内 的 检索 量 / (最 近 X 天 内 的 检索 量 + 10669) 的 比值 ， 这样 小 的 检索 量 就 会 被 稀释 。 或 
者 ， 你 可 以 使 用 单独 的 信号 作为 绝对 检索 量 得 分 与 比值 结合 使 用 。 


意见 领袖 


另 一 个 想法 是 ， 如 果 一 些 话题 由 高 端 人 士 讨论 ， 他 们 可 能 更 有 趣 ， 更 受 欢 迎 。 


有 很 多 方法 来 设计 这 个 算法 。 一 种 方法 是 首先 确定 谁 是 高 端 人 士 。 我 们 可 以 简单 地 使 用 粉丝 
数 (虽然 有 很 多 冒牌 的 意见 领袖 买 了 粉丝 ) 。 如 果 某 个 主题 被 任何 意见 领袖 发 推 ， 我 们 可 以 
计算 这 个 主题 推 了 多 少 次 。 因 此 ， 只 需 基 于 意见 领袖 的 流行 度 将 推 文 数量 乘 以 一 个 参数 即 
可 。 

有 人 可 能 会 争辩 说 ， 我 们 不 应 该 给 意见 领袖 更 多 的 权重 ， 因 为 如 果 一 个 话题 是 趋势 ， 就 必须 


通用 户 在 谈论 这 ns 直到 你 试 一 试 ， 你 才 会 
结果 。 所 以 我 绝对 不 是 说 这 是 正确 的 做 法 ， 但 可 能 值得 做 一 个 实验 。 


个 性 化 


不 同 的 人 有 不 同 的 品味 和 兴趣 。 我 们 可 以 根据 不 同 的 用 户 调整 趋势 列表 。 这 可 能 是 相当 复杂 
的 ， 因 为 你 可 以 做 很 多 事情 来 使 其 个 性 化 。 


A 人 


例如 ， 你 可 以 根据 一 些 信号 ， 包 括 他 以 前 的 推 特 ， 他 跟随 的 人 和 他 喜欢 的 推 文 等 ， 计 算 每 个 
主题 和 用 户 之 间 的 相关 性 分 数 。 然 后 可 以 将 相关 性 分 数 与 趋势 比率 一 起 使 用 。 

另外 ， 位 置 也 应 该 是 一 个 有 价值 的 信号 。 我 们 甚至 可 以 计算 每 个 地 点 (也许 是 城市 级 别 ) 的 
趋势 主题 。 
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还 有 更 多 有 趣 的 话题 我 还 没有 涉及 。 例 如 ， 很 多 话题 都 是 一 样 的 ， 系 统 如 何 对 它们 去 重复 
呢 ? 有 没有 其 他 信号 可 以 被 整合 ， 比 如 用 户 搜索 历史 ? 

趋势 算法 是 非常 有 趣 和 有 用 的 。 尽 管 我 们 使 用 Twitter 作为 例子 ， 但 我 们 讨论 过 的 很 多 东西 也 
可 以 应 用 到 Facebook 或 其 他 平台 上 。 


设计 缓存 系统 


原文 : Design a Cache System 

译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 

自豪 地 采用 谷歌 翻译 
与 我 们 以 前 的 文章 相似 ， 我 们 希望 选择 一 些 流行 和 实用 的 系统 设计 面试 问题 ， 这 样 你 不 仅 可 
以 理解 如 何在 面试 中 分 析 问 题 ， 同 时 还 可 以 学 本 尖 风 内 要 


如 果 你 不 了 解 系统 设计 面试 ， 我 建议 你 先 阅读 本 教程 。 在 这 篇 文章 中 ， 我 们 正在 解决 这 个 问 
题 - 如 何 设 计 一 个 缓存 系统 。 这 篇 文章 涵盖 的 主题 包括 : 


。 LRU 缓存 
。 换 页 策略 
。 缓存 并 发 
。 分 布 式 缓存 系统 


问题 
如 何 设计 缓存 系统 ? 


缓存 系统 是 目前 几乎 所 有 应 用 中 广泛 采用 的 技术 。 另 外 ， 它 适用 于 技术 栈 的 每 一 层 。 例 如 ， 
在 网 络 领域 中 ， 缓 存 用 于 DNS 查找 ，Web 服务 器 缓存 用 于 频繁 的 请 求 。 
ee 资源 ， 当 下 次 有 人 请 求 相同 的 资源 时 ， 系 统 
可 以 立即 返回 。 它 通过 消耗 更 多 的 存储 空间 来 提高 系统 效率 。 


LRU 


最 常用 的 缓存 系统 之 一 是 LRU (最 久未 使 用 ) 。 事实 上 ， 另 一 个 常见 的 面试 问题 是 讨论 LRU 
缓存 的 数据 结构 和 设计 。 我 们 从 这 个 方法 开始 。 


LRU 缓存 的 工作 方式 非常 简单 。 当 客 户 端 请 求 资 源 A 时， 发 生 如 下 情况 


e 如 果 缓 存 中 存在 A， 我 们 只 需 立 即 返回 。 

e 如 果 没 有 ， 并 且 缓 存 具 有 额外 的 存储 空间 ， 则 我 们 获取 资源 A 并 返回 给 客户 端 。 另外， 
将 A 插 入 缓存 。 

e。 如 果 缓 存 已 满 ， 我 们 将 最 久 没 使 用 的 资源 剔除 ， 并 将 其 替换 为 资源 A 


这 里 的 策略 是 最 大 限度 地 提高 请 求 资源 存在 于 缓存 中 的 机 会 。 那 么 我 们 怎样 才能 实现 一 个 简 
单 的 LRU? 


LRU 设计 


LRU 缓存 应 该 支持 这 些 操作 : 查找 ， 插 入 和 删除 。 显 然 ， 为 了 实现 快速 查找 ， 我 们 需要 使 用 
散 列 。 同 样 的 道理 ， 如 果 我 们 想 要 快速 插入 /删除 ， 链 接 列 表 就 会 出 现在 你 的 脑海 里 。 由 于 我 
们 需要 有 效 地 查找 最 久未 使 用 的 项 目 ， 所 以 我 们 需要 按 顺 序 排列 队列 ， 栈 或 有 序数 组 。 


为 了 结合 所 有 这 些 分 析 ， 我 们 可 以 使 用 由 双向 链表 实现 的 队列 来 存储 所 有 的 资源 。 此 外 ， 还 
需要 一 个 哈 希 表 ， 其 中 资源 标识 符 为 键 ， 相 应 队列 节点 的 地 址 为 值 。 


工作 原理 是 这 样 。 当 请 求 资源 A 时 ， 我 们 检查 哈 硕 表 来 查看 缓存 中 是 否 存在 人 A。 如 果 存 在 ， 
我 们 可 以 立即 找到 相应 的 队列 节点 并 返回 资源 ( 译 者 注 : 并 移动 到 队列 尾部 ) 。 如 果 不 是 的 
话 ， 我 们 将 A 添 加 到 缓存 中 。 如 果 有 足够 的 空间 ， 我 们 只 要 在 队列 的 末尾 添加 A 就 可 以 了 。 

和 否则， 我 们 需要 删除 最 久未 使 用 的 条 目 。 为 了 这 样 做 ， 我 们 可 以 很 容易 地 删除 队列 的 头 部 和 
哈 希 表 中 相应 的 条 目 。 


( 译 者 注 : 队列 中 也 需要 储存 资源 IDD， 这 样 从 队列 中 删除 资源 之 后 ， 可 以 从 哈 希 表 中 也 删 
除 。) 


换 页 策略 

当 缓 存 已 满 时 ， 我 们 需要 删除 现 有 项 目 来 存放 新 资源 。 实际 上 ， 删 除 最 久未 使 用 的 项 目 只 是 
最 常用 的 方法 之 一 。 那么 还 有 其 他 方法 可 以 做 到 吗 ? 

如 上 所 述 ， 策 略 是 尽 可 能 地 将 请 求 资 源 存在 于 缓存 中 。 我 将 在 这 里 简要 提 一 下 几 种 方法 : 


。 随机 替换 (RR) - 如 术语 所 示 ， 我 们 可 以 随机 删除 一 个 条 目 。 
。 最 不 经 常 使 用 (LFU) - 我 们 维护 每 个 项 目的 请 求 频率 ， 并 删除 最 不 经 常 使 用 的 项 目 。 
e。 W-TinyLFU - 我 也 想 谈 谈 这 个 现代 的 换 页 策略 。 总 而 言 之 ，LFU 的 问题 在 于 ， 有 时 候 一 
个 条 目 只 是 过 去 经 常 使 用 ， 而 LFU 仍然 会 保留 这 个 项 目 很 长 一 段 时 间 。 W-TinyLFU 通 
过 计算 时 间 窗 内 的 频率 来 解决 这 个 问题 。 它 也 有 各 种 存储 优化 。 


为 了 讨论 并 发 性 ， 我 想 谈 谈 为 什么 缓存 存在 并 发 问题 ， 我 们 如 何 解决 这 个 问题 。 


它 可 以 归 为 经 典 的 读 写 器 问题 。 当 多 个 客户 端 同时 尝试 更 新 缓存 时 ， 可 能 会 有 冲突 。 例 如 
两 个 客户 端 可 能 竞争 相同 的 缓存 构 ， 而 最 后 一 个 更 新 缓存 的 客户 端 将 获胜 。 


当然 ， 常 见 的 解决 方案 是 使 用 锁 。 缺 点 是 显而易见 的 - 它 会 严重 影响 性 能 。 我 们 如 何 优 化 呢 ? 


一 种 方法 是 将 缓存 分 成 多 个 分 片 ， 并 为 每 个 分 片 分 配 一 个 锁 ， 这 样 如 果 客 户 端 在 不 同 的 分 片 
中 更 新 缓存 ， 就 不 会 相互 等 待 。 但 是 ， 由 于 热门 的 条 目 更 有 可 能 被 访问 ， 某 些 分 片 将 比 其 他 
碎片 锁定 得 更 频繁 。 


另 一 种 方法 是 使 用 提交 日 志 。 为 了 更 新 缓存 ， 我 们 可 以 将 所 有 改动 存储 到 日 志 中 ， 而 不 是 立 
即 更 新 。 然 后 一 些 后 台 进 程 将 异步 执行 所 有 的 日 志 。 数 据 库 设计 中 通常 采用 这 种 策略 。 


NA ~ po 
分 布 式 缓存 
当 系 统 达到 一 定 规模 时 ， 我 们 需要 将 缓存 分 配给 多 台 机 器 。 


一 般 的 策略 是 保留 一 个 哈 希 表 ， 将 每 个 资源 映射 为 相应 的 机 器 。 因 此 ， 当 请 求 资源 A 时 ， 从 
这 个 哈 希 表 中 我 们 知道 机 器 M 负责 缓存 A 并 将 请 求 指向 M。 在 机 器 M 中 ， 其 工作 方式 类 似 
于 上 面 讨论 的 本 地 缓存 。 如 果 A 不 存在 于 内 存 中 ， 则 机 器 M 可 能 需要 获取 并 更 新 A 的 组 
存 。 之 后 ， 它 将 缓存 返回 到 原始 服务 器 。 


如 果 你 对 此 主题 感 兴 趣 ， 可 以 查看 更 多 Memcached 的 信息 。 
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缓存 可 能 是 非常 有 趣 和 实用 的 话题 ， 因 为 现在 几乎 所 有 的 系统 都 使 用 它 。 还 有 很 多 话题 ， 像 
过 期 策略 ， 我 没有 在 这 里 设计 。 


如 果 你 想 了 解 更 多 类 似 的 文章 ， 请 查看 我 们 的 系统 设计 面试 问题 集 。 


设计 推荐 系统 
原文 : Design a Recommendation System 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 
我 们 从 一 个 简单 的 问题 开始 : 如 何 设计 推荐 系统 ? 


似乎 这 个 问题 在 最 近 的 系统 设计 面试 中 被 多 次 闻 到 。 另 外 ， 现 在 推荐 系统 非常 重要 ， 几 乎 每 
个 公司 都 有 自己 的 推荐 系统 ， 可 以 用 来 提供 各 种 建议 。 所 以 这 个 话题 讨论 起 来 可 能 相当 有 
趣 。 


在 这 篇 文章 中 ， 我 将 主要 讨论 推荐 系统 的 各 个 方面 ， 可 能 在 系统 设计 面试 中 讨论 。 将 涉及 的 
主题 包括 推荐 系统 ， 协 同 过 滤 (CF) ， 推 荐 系统 基础 设施 等 。 


推荐 系统 


推荐 系统 一 直 是 一 个 热门 话题 。 似 乎 几乎 每 个 公司 都 在 建立 这 样 的 系统 。 例 如 ， 亚 马 进 正在 
使 用 推荐 系统 来 提供 客户 可 能 也 喜欢 的 商品 。 Hulu 正在 使 用 推荐 系统 来 推荐 其 他 受 欢迎 的 节 
目 或 剧 集 。 


为 了 限制 讨论 范围 ， 我 们 主要 关注 Youtube 的 推荐 系统 。 更 具体 地 说 ， 系 统 负 责 推 荐 用 户 可 
能 喜欢 观看 的 视频 。 


启发 式 解 决 方案 


虽然 机 器 学 习 (ML) 通常 用 于 建立 推荐 系统 ， 但 并 不 意味 着 它 是 唯一 的 解决 方案 。 有 很 多 情 
况 下 ， 我 们 想 要 更 简单 的 方法 ， 例 如 ， 我 们 可 能 有 很 少 的 数据 ， 或 者 我 们 可 能 想 快 速 建立 一 
个 最 小 的 解决 方案 。 

在 这 种 情况 下 ， 我 们 可 以 从 一 些 启 发 式 解决 方案 开始 。 事 实 上 ， 我 们 可 以 实现 很 多 黑 魔法 ， 
来 构建 简单 的 推荐 系统 。 例 如 ， 根 据 用 户 观看 的 视频 ， 我 们 可 以 简单 推荐 同一 作者 的 视频 。 
我 们 也 可 以 推荐 标题 或 标签 类 似 的 视频 。 如 果 我 们 使 用 知名 度 (评论 数量 ， 分 享 数量 ) 作为 
另 一 个 信号 ， 则 这 个 推荐 系统 作为 一 个 底线 ， 可 以 运行 得 很 好 。 


协同 过 小 


在 谈 到 推荐 系统 时 ， 我 很 难 避免 提 到 协同 过 滤 (CF) ， 这 是 推荐 系统 中 最 流行 的 技术 。 由 于 
不 是 每 个 人 都 有 机 器 学 习 的 背景 ， 所 以 我 不 会 更 深入 地 介绍 这 个 算法 。 实 际 上 ， 协 同 过 滤 的 
美妙 之 处 在 于 基本 思想 非常 简单 ， 每 个 人 都 可 以 很 容易 的 理解 它 。 


简 而 言 之 ， 为 了 向 用 户 推荐 视频 ， 我 可 以 提供 类 似 用 户 喜 欢 的 视频 。 例 如 ， 如 果 用 户 A 和 B 
oo 
是 “相似 ?有 很 多 方式 。 这 可 能 是 两 个 用 户 喜欢 同一 个 视频 ， 也 可 能 意味 着 他 们 拥有 相同 的 位 
置 。 


以 上 算法 被 称 为 基于 用 户 的 协同 过 滤 。 另 一 个 版 本 称 为 基于 条 目的 协作 过 滤 
视频 与 用 户 观 看 过 的 视频 类 似 (条 目 ) 。 
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特征 工程 


在 系统 设计 面试 中 提 到 协同 过 滤 并 不 令 人 印象 深刻 ， 因 为 算法 非常 普遍 。 大 多 数 面 
试 官 关 心 的 是 如 何 构建 针对 面试 问题 的 系统 。 那 么 对 于 Youtube 视频 推荐 ， 可 以 使 用 哪些 功 
能 来 构建 推荐 系统 ? 


通常 有 两 种 类 型 的 特征 - 显 式 和 隐 式 特征 。 显 式 特征 可 以 是 收视 率 ， 收 藏 夹 等 。 在 Youtube 
上 ， 它 可 以 是 喜欢 /共享 /订阅 行为 。 隐 式 特征 不 太 明显 。 如 果 用 户 只 观看 了 几 秒 钟 的 视频 ， 可 
能 是 一 个 负面 的 迹象 。 给 定 一 个 推荐 视频 的 列表 ， 如 果 用 户 点 击 一 个 而 不 是 另 一 个 ， 这 可 能 
意味 着 他 喜欢 点 击 那个 。 通 常 ， 我 们 需要 深入 探讨 隐 式 特征 。 


用 


回 到 Youtube 的 问题 ， 有 几 个 特征 是 相当 明显 的 : 


e@ 喜欢 /分 享 /订阅 - 如 上 所 述 ， 它 们 是 关于 用 户 喜 好 的 强烈 信号 。 
。 观看 时 间 

e 视频 标题 /标签 /类 别 

e。 新 鲜 度 


值得 大 家 注意 的 是 ， 构 建 机 器 学 习 系统 的 时 候 ， 你 必须 尝试 大 量 的 不 同 特征 组 合 。 如 果 不 党 
试 ， 你 就 不 会 知道 哪 一 个 是 好 的 。 


基础 设施 
推 关 好 的 系统 设计 面试 问题 ， 另 一 个 原因 是 它 也 可 以 用 来 讨论 基础 设施 。 显 然 ， 系 


符 系 统 是 很 
统 包 含 多 个 步骤 /组 件 。 那 么 你 如 何 设计 整个 系统 的 基础 设施 呢 ? 


鉴于 在 Youtube 上 对 比 类 似 的 用 户 /视频 可 能 是 耗 时 的 ， 这 部 分 应 该 在 离线 流水 线 中 完成 。 因 
此 ， 我 们 可 以 把 整个 系统 分 为 在 线 和 离线 。 


对 于 离线 部 分 ， 所 有 的 用 户 模型 和 视频 需要 存储 在 分 布 式 系统 中 (有 一 整 篇 文章 都 在 讲 存 

储 ， 本 文 简要 介绍 了 这 个 话题 ) 。 计 算 相 似 用 户 / 视 频 的 流水 线 也 会 定期 运行 ， 以 便 保 持 数据 
更 新 。 事 实 上 ， 对 于 大 多 数 机 器 学 习 系统 来 说 ， 使 用 离线 流水 线 来 处 理 大 数据 是 很 常见 的 ， 
因为 你 不 会 期 望 它 在 几 秒 钟 内 完成 。 

对 于 在 线 部 分 ， 根 据 用 户 个 人 资料 和 他 的 行为 (如 刚刚 观看 的 视频 ) ， 我 们 应 该 能 够 提供 来 
自 离线 数据 的 推荐 视频 列表 。 通 常情 况 下 ， 系 统 会 获取 比 所 需 更 多 的 视频 ， 然 后 进行 过 滤 和 
排序 。 我 们 可 以 过 滤 与 用 户 观看 过 的 视频 无 关 的 视频 。 然 后 我 们 也 应 该 排列 这 些 建议 。 一 些 
因素 应 该 考虑 进来 ， 包 括 视频 流行 度 (分享 /评论 /喜欢 的 数量 ) ， 新 鲜 度 ， 质 量 等 方面 。 
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实际 上 ， 还 有 很 多 方法 可 以 用 于 改进 我 们 尚未 涉及 的 系统 。 我 想 简单 地 提 一 些 技巧 : 


新 鲜 度 可 能 是 一 个 非常 重要 的 因素 。 我 们 应 该 弄 清楚 如 何 推荐 新 鲜 的 内 容 。 评 估 是 推荐 系统 
的 重要 组 成 部 分 ， 它 使 我 们 能 够 了 解 系统 的 工作 情况 。 为 了 训练 协作 过 滤 系统 ， 我 们 还 可 以 
包括 视频 位 置信 号 。 通 常情 况 下 ， 排 名 靠 前 的 视频 有 更 高 的 点 击 机 会 。 很 难 预 测 系统 设计 面 
试 中 会 讨论 什么 ， 这 就 是 我 尽量 在 文章 中 涵盖 尽 可 能 多 的 话题 ， 而 不 是 深入 到 特定 的 领域 的 


如 果 你 觉得 这 篇 文章 有 帮助 ， 请 分 享 给 你 的 朋友 ， 我 会 很 感谢 。 你 也 可 以 在 这 里 查看 更 多 的 
系统 设计 面试 问题 和 分 析 。 


随机 ID 生成 器 


原文 : Random ID Generator 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 


让 我 们 继续 讨论 我 们 的 系统 设计 面试 问题 。 如 果 你 刚刚 看 到 这 个 系列 ， 你 可 以 查看 我 们 以 前 
的 文章 。 基 本 上 ， 我 们 每 个 星期 都 会 选择 一 些 有 趣 的 面试 问题 ， 并 提供 深入 的 分 析 。 


值得 注意 的 是 ， 这 篇 文章 并 不 是 要 给 你 一 些 标准 答案 。 相 反 ， 我 们 更 注重 分 析 问 题 ， 以 及 如 
何 提 出 合理 的 方法 。 系 统 设 计 面 试 更 是 如 此 ， 因 为 这 个 问题 可 能 是 非常 开放 的 。 


本 周 ， 我 们 将 讨论 如 何 设 计 随 机 ID 生成 器 。 我 们 将 介绍 一 些 主题 ， 包 括 扩展 ID 生成 器 和 每 
种 方法 的 优 缺点 。 


随机 ID 生成 器 


如 果 你 不 知道 ID 生成 器 是 什么 ， 请 让 我 在 这 里 简要 解释 一 下 。 假 设 你 正在 构建 Twitter 这 样 的 
社交 网 络 产品 ， 则 需要 将 每 个 用 户 存储 在 数据 库 中 ， 并 使 用 唯一 的 用 户 标 识 来 确定 系统 中 的 
每 个 用 户 。 

在 某 些 系统 中 ， 你 可 以 从 1 2， 3 ...N 持续 增加 ID 。 在 其 他 系统 中 ， 我 们 可 能 需要 生成 一 
个 随机 字符 串 的 ID。 通常 ，ID 生成 器 的 要 求 很 少 : 

他 们 不 能 任意 长 。 比 方 说 ， 我 们 保持 在 64 位 。1ID 按 日 期 递增 。 这 给 系统 提供 了 很 大 的 灵活 
性 ， 例 如 你 可 以 通过 ID 排序 用 户 ， 这 与 登记 日 期 排序 相同 。 


还 有 一 些 其 他 的 要 求 ， 尤 其 是 当 你 想 扩 展 系 统 来 支持 数 百 万 甚至 数 十 亿 用 户 时 。 


单机 

我 们 以 前 的 建议 是 ， 从 简单 的 事情 开始 并 继续 优化 就 很 好 ， 当 问题 很 宽泛 时 更 是 如 此 。 如 果 
我 在 系统 设计 面试 中 遇 到 这 个 问题 ， 很 可 能 我 会 从 一 台 机 器 设计 开始 。 这 不 仅 容易 设计 ， 而 
且 在 大 多 数 情况 下 都 足够 了 。 


在 最 简单 的 情况 下 ， 我 们 可 以 从 1 2 3 ... N 递增 ID， 这 实际 上 是 许多 丨 实 项 目 中 最 常用 
的 生成 ID 的 方法 之 一 。 如 果 用 户 A 的 ID 比 用 户 B 大 ， 那 么 我 们 知道 A 是 稍 后 注册 的 。 


但 是 ， 这 种 方法 难以 扩展 。 上 比方 说 一 年 之 后 ， 每 天 都 有 太 多 的 用 户 ， 需 要 将 数据 库 扩展 到 多 
个 实例 。 你 会 看 到 这 种 方法 无 效 ， 因 为 它 可 能 会 为 不 同 的 用 户 生 成 重复 的 ID 。 


第 三 方 服务 


为 了 将 ID 生成 器 扩展 到 多 So 
成 ID。 更 具体 地 说 ， 当 用 户 注册 产品 时 ， 无 论 哪 个 服务 器 处 理 这 个 请 求 ， 它 都 会 连接 到 第 

方 服务 器 来 请 求 一 个 随机 ID。 由 于 所 有 ID 的 生成 都 是 在 一 台 服 务 器 上 处 理 的 ， 因 此 不 会 产生 
重复 的 ID 。 


然而 ， 这 个 解决 方案 的 缺点 是 显而易见 的 。 假 设 产品 如 此 受 欢迎 ， 以 至 于 一 秒 钟 内 就 可 能 
大 量 的 注册 用 户 ， 第 三 方 服务 器 很 快 就 会 成 为 瓶颈 。 服 务 器 可 能 会 阻止 注册 或 只 是 崩溃 。 


多 机 解决 方案 


因此 ， 我 们 必须 将 ID 生成 扩展 到 多 个 服务 器 。 如 果 我 们 不 想 和 ID 生成 服务 器 通信 ， 则 每 个 
服务 器 应 该 自己 能 够 生成 随时 间 增 加 的 唯一 ID。 考虑 使 用 时 间 惟 来 生成 ID 应 该 是 很 自然 的 。 


由 于 在 一 个 时 间 惟 内 也 可 能 有 多 个 用 户 ， 我 们 可 以 用 两 种 方法 解决 这 个 问题 。 


。 我 们 为 每 个 ID 生成 服务 器 分 配 一 个 服务 器 ID， 最 终 的 ID 是 时 间 惟 和 服务 器 ID 的 组 合 。 

。 我 们 还 可 以 在 单个 服务 器 上 的 单个 时 间 惟 内 允许 多 个 请 求 。 我 们 可 以 在 每 个 服务 器 上 保 
留 一 个 计数 器 ， 它 表示 在 当前 时 间 改 里 已 经 生成 了 多 少 个 ID。 所 以 最 终 的 ID 是 时 间 戳 ， 
serverlD 和 计数 器 的 组 合 。 


如 前 所 述 ，ID 不 能 是 任意 长 的 ， 例 如 计数 器 可 能 只 有 8 位 。 在 这 种 情况 下 ， 服 务 器 最 多 可 以 
在 单个 时 间 戳 内 处 理 256 个 请 求 。 如 果 频 繁 超 过 这 个 限制 ， 我 们 需要 添加 更 多 的 实例 。 


事实 上 ， 这 个 解决 方案 就 是 Twitter 解决 问题 的 方法 。 他 们 开放 了 他 们 的 ID 生成 器 ， 叫 
Snowflake。 


时 钟 同步 


我 们 忽略 了 上 述 分 析 中 的 一 个 关键 问题 。 事实 上 ， 有 一 个 隐藏 的 假设 ， 即 所 有 ID 生成 服务 器 
都 有 相同 的 时 钟 来 生成 时 间 惟 ， 在 分 布 式 系统 中 可 能 不 是 这 样 。 


实际 上 ， 在 分 布 式 系统 中 的 系统 时 钟 可 能 会 发 生 严 重 偏 入， 这 可 能 会 导致 我 们 的 ID 生成 器 提 
供 重复 的 ID， 或 顺序 不 正确 的 IDD。 时 钟 同步 不 在 本 次 讨论 的 范围 内 ， 但 是 ， 了 解 这 个 系统 中 
的 这 个 问题 对 你 来 说 很 重要 。 有 很 多 方法 可 以 解决 这 个 问题 ， 如 果 你 想 了 解 更 多 的 信息 ， 请 

查看 NTP 。 
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随机 ID 生成 器 在 许多 扶 实 项 目 中 是 一 个 非常 实际 的 问题 。 与 许多 其 他 系统 类 似 ， 年 看 起 来 似 
乎 很 容易 ， 但 在 扩展 到 多 台 机 器 时 存在 相当 多 的 问题 。 如 果 你 想 了 解 此 主题 的 更 多 信息 ， 还 
可 以 查看 Flickr 的 景 务 服务 医 ， 这 是 除了 "Snowflake" 之 外 的 另 一 种 方法 。 


设计 键 值 存 储 (第 一 部 分 ) 


原文 : Design a Key-Value Store (Part |) 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 

自豪 地 采用 谷歌 翻译 


由 于 很 多 人 给 我 们 发 邮件 说 ， 他 们 想 了 解 系统 设计 面试 的 更 多 内 容 ， 我 们 将 会 介绍 更 多 这 个 
话题 。 我 很 高 兴 听 到 很 多 反馈 意见 ， 如 果 你 有 任何 建议 或 疑问 ， 请 发 表 评 论 告诉 我 们 。 


本 周 ， 我 要 谈 谈 键 值 存储 。 键 值 存储 是 世界 上 几乎 所 有 系统 都 使 用 的 非常 强大 的 技术 。 它 可 
以 像 散 列表 一 样 简单 ， 同 时 也 可 以 是 分 布 式 存储 系统 。 例如 ，Cassandra 的 下 划 线 系统 是 一 
个 键 值 存储 系统 ，Cassandra 在 苹果 ，Facebook 等 许多 公司 中 被 广泛 使 用 。 


在 这 篇 文章 中 ， 我 将 介绍 基本 的 键 值 存储 系统 ， 分 布 式 键 值 存储 以 及 包括 分 片 在 内 的 扩展 问 
题 等 ， 这 些 都 可 能 在 系统 设计 面试 中 涵盖 。 


基本 的 键 值 存储 


如 何在 一 台 机 器 上 设计 简单 的 键 值 存储 系统 ? 


最 直接 的 方法 是 使 用 散 列 表 来 存储 键 值 对 ， 这 是 目前 大 多 数 这 类 系统 的 工作 原理 。 散 列表 多 
许 你 在 常数 时 间 内 读 / 写 一 个 键 值 对 ， 而 且 使 用 起 来 非常 简单 。 大 多 数 语 言 都 有 内 置 的 支持 。 


但 是 ， 缺 点 也 是 显而易见 的 。 使 用 哈 希 表 通 常 意味 着 你 需要 将 所 有 内 容 存 储 在 内 存 中 ， 这 在 
数据 集 很 大 时 可 能 是 不 可 能 的 。 有 两 个 常见 的 解决 方案 : 


。 压缩 你 的 数据 。 这 应 该 是 首先 要 考虑 的 事情 ， 而 且 往往 有 一 堆 你 可 以 压缩 的 东西 。 例 
如 ， 你 可 以 存储 引用 而 不 是 实际 的 数据 。 你 也 可 以 使 用 float32 而 不 是 float64 。 田 
外 ， 使 用 像 位 数组 (整数 ) 或 向 量 这 样 的 不 同 的 数据 表示 也 是 有 效 的 。 

e。 存储 在 磁盘 中 。 如 果 不 可 能 将 所 有 内 容 都 放 在 内 存 中 ， 则 可 以 将 部 分 数据 存储 到 磁盘 
中 。 为 了 进一步 优化 它 ， 你 可 以 把 这 个 系统 看 作 缓 存 系统 。 经 常 访问 的 数据 保存 在 内 存 
中 ， 其 余 的 在 磁盘 上 。 


分 布 式 键 值 存储 


最 有 趣 的 话题 就 是 将 键 值 存储 扩展 到 多 台 机 器 。 如 果 你 想 支 持 大 数据 ， 你 肯定 会 实现 分 布 式 
系统 。 让 我 们 看 看 我 们 如 何 设计 一 个 分 布 式 键 值 存 储 系 统 


如 果 你 已 经 阅读 过 设计 缓存 系统 ， 你 会 注意 到 这 里 的 许多 概念 完全 相同 。 


由 于 一 台 机 器 没有 对 所 有 的 数据 足够 的 存储 空间 ， 这 里 的 总 体 思 路 是 通过 一 些 规则 ， 将 数据 
分 割 到 多 台 机 器 ， 协 调 机 可 以 将 客户 端 引导 到 拥有 所 请 求 资源 的 机 器 。 问 题 是 如 何 将 数据 分 
割 到 多 个 机 器 ， 更 重要 的 是 ， 分 配 数据 的 策略 是 什么 ? 


拆 分 


假设 所 有 的 键 都 是 像 http://gainlo.co 这 样 的 URL， 我 们 有 26 台 机 器 。 一 种 方法 是 基于 
URL 的 第 一 个 字符 〈 www 之 后 ) ， 将 所 有 键 (URL) 分 配给 这 26 台 机 器 。 例 

如 ， http//gainlo.co 将 存储 在 机 器 G， 而 http://blog.gainlo.co 将 被 存储 在 机 器 B。 那 么 
这 种 设计 的 缺点 是 什么 了 


让 我 们 忽略 URL 包含 ASCII 字符 的 情况 。 好 的 分 片 算法 应 该 能 够 把 流量 平均 平衡 到 所 有 的 机 
器 。 换 句 话 说， 理想 情况 下 每 台 机 器 都 会 收 到 相同 数量 的 请 求 。 显 然 ， 上 面 的 设计 不 太 好 。 
首先 ， 存 储 不 是 平均 分 布 的 。 可 能 有 更 多 的 网 址 以 a 开始 而 不 是 z 。 其 次 ， 一 些 网 址 更 受 欢 
迎 ， 例 如 Facebook 和 Google。 


为 了 平衡 流量 ， 最 好 确保 键 是 随机 分 布 的 。 另 一 个 解决 方案 是 使 用 URL 的 散 列 ， 通 常 具 有 更 


好 的 性 能 。 要 设计 一 个 好 的 分 片 莫 法 ， 你 应 该 完全 理解 这 个 应 用 ， 并 且 可 以 估计 系统 的 瓶 
颈 。 


> 
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键 值 存储 涵盖 了 太 多 有 趣 的 话题 ， 我 很 难 把 它们 全 


全 入 一 篇 文章 。 正 如 你 所 看 到 的 ， 当 扩 
展 系 统 时 ， 需 要 考虑 更 多 的 问题 ， 这 就 是 许多 人 觉 


部 写 

得 分 布 式 系 统 较 难 的 原因 。 

在 下 一 篇 文章 中 ， 我 们 将 继续 讨论 ， 并 将 涵盖 更 多 扩展 系统 的 内 容 。 将 讨论 系统 可 用 性 ， 一 
致 性 等 事情 。 


设计 键 值 存储 (第 二 部 分 ) 


原文 : Design a Key-Value Store (Part ||) 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 
这 是 设计 键 值 存储 系列 文章 的 第 二 篇 文章 。 如 果 你 还 没有 阅读 第 一 篇 文章 ， 请 查看 它 。 


在 我 们 之 前 的 文章 中 ， 我 们 主要 关注 的 是 键 值 存储 的 基本 概念 ， 特 别 是 单机 场景 。 当 涉 及 扩 
展 问题 时 ， 我 们 需要 通过 一 些 规则 将 所 有 数据 分 配 到 多 台 机 器 ， 协 调 机 可 以 将 客户 机 引导 到 
拥有 所 请 求 资源 的 机 器 。 


设计 分 布 式 系统 时 需要 考虑 很 多 事情 。 在 将 数据 分 到 多 人 台 机 器 时 ， 平 衡 流量 很 重要 。 这 就 是 
最 好 确保 键 是 随机 分 布 的 原因 。 


在 这 篇 文章 中 ， 我 们 将 继续 讨论 分 布 式 键 值 存储 系统 。 我 们 将 讨论 系统 可 用 性 ， 一 致 性 等 主 


题 。 


系统 可 用 性 


要 评估 分 布 式 系统 ， 一 个 关键 指标 是 系统 可 用 性 。 例 如 ， 假 设 我 们 的 一 台 计 算 机 出 于 某 种 原 
因 崩 溃 (可 能 是 硬件 问题 或 程序 错误 ) ， 这 对 我 们 的 键 值 存 储 系统 有 什么 影响 ? 


显然 ， 如 果 有 人 从 这 台 机 器 请 求 资 源 ， 我 们 将 无 法 返回 正确 的 响应 。 建 立业 余 项 目 时 你 可 能 

不 会 考虑 这 个 问题 。 但 是 ， 如 果 你 使 用 大 量 服务 器 服务 数 百 万 用 户 ， 则 会 经 常 发 生 这 种 情 

况 ， 你 无 法 每 次 都 手动 重新 启动 服务 器 。 这 就 是 为 什么 可 用 性 在 当今 每 个 分 布 式 系统 中 都 是 

必 不 可 少 的 。 那 么 你 将 如 何 解决 这 个 问题 呢 ? 

当然 你 可 以 用 测试 用 例 编 写 更 健 半 的 代码 。 但 是 ， 你 的 程序 总 会 有 错误 。 另 外 ， 硬 件 问 题 更 

难以 保护 。 最 常见 的 解决 方案 是 宛 余 。 通 过 建立 带 有 重复 资源 的 机 器 ， 我 们 可 以 显 着 减少 系 

统 停机 时 间 。 如 果 一 台 机 器 每 个 月 有 10% 的 几率 前 溃 ， 那 么 使 用 一 台 备 份 机 器 ， 我 们 将 两 台 
机 器 都 停机 的 概率 降低 到 1% 。 


匈 余 VS 分 手 


乍 一 看 ， 完 余 与 分 片 非 
在 兄 余 和 分 片 之 间 进 行 


常 相 似 。 那 么 这 两 者 有 什么 关系 呢 ? 在 设计 分 布 式 键 值 存储 时 ， 如 何 
选择 ? 


首先 ， 我 们 需要 清楚 这 两 种 技术 的 目的 。 分 片 基 本 上 用 来 分 割 数 据 到 多 人 台 机 器 ， 因 为 一 台 机 
器 不 能 存储 太 多 的 数据 。 宛 余 是 保护 系统 免 于 宕 机 的 一 种 方式 。 考 虑 到 这 一 点 ， 如 果 一 台 机 
器 不 能 存储 所 有 的 数据 ， 宛 余 就 没有 用 。 


-> 


通过 引入 宛 余 ， 我 们 可 以 使 系统 更 健壮 。 但 是 ， 一 致 性 是 个 问题 。 比 如 存在 机 器 A1， 我 们 有 
元 余 A2。 你 如 何 确保 A1 和 A2 具有 相同 的 数据 ?例如 ， 当 插入 一 个 新 条 目 时 ， 我 们 需要 更 
听 两 
不 一 


Wy 


台 机 器 。 但 其 中 一 个 写 入 操作 可 能 失败 。 所 以 随 着 时 间 的 推移 ，A1 和 A2 可 能 会 有 很 多 
致 的 数据 ， 这 是 一 个 很 大 的 问题 。 


这 里 有 几 个 解决 方案 。 第 一 种 方法 是 将 本 地 副本 保存 在 协调 机 中 。 无 论 何 时 更 新 资源 ， 协 调 
机 都 会 保留 更 新 版 本 的 副本 。 因 此 ， 如 果 更 新 失败 ， 协 调 员 可 以 重新 进行 操作 。 


另 一 种 方法 是 提交 日 志 。 如 果 你 一 直 在 使 用 Git， 那 么 提交 日 人 当 熟 
bY 。 基 本 上 ， 对 于 每 个 节点 机 器 ， 它 将 保留 每 个 操作 的 提交 日 志 ， 人 中 一 

。 所 以 当 我 们 想 要 更 新 机 器 A 中 的 条 目 时 ， 它 会 首先 将 这 个 请 求 存储 在 提交 日 志 中 。 然 后 
< 的 程序 将 按 顺 序 处 理 所 有 提交 日 志 (在 队列 中 ) 。 每 当 一 个 操作 失败 时 ， 我 们 可 以 
很 容易 地 恢复 ， 因 为 我 们 可 以 查找 提交 日 志 。 


我 想 介绍 的 最 后 一 种 方法 是 解决 读 取 中 的 冲突 。 假 设 当 请 求 的 资源 位 于 A1，A2 和 A3 时 ， 协 
调 机 可 以 请 求 所 有 三 台 机 器 。 如 果 数 据 不 同 ， 系 统 可 以 即时 解决 冲突 。 


一 提 的 是 ， 所 有 这 些 方 法 都 不 是 互 斥 的 。 基 于 应 用 程序 你 肯定 可 以 使 用 多 


读 取 吞吐 量 


在 这 篇 文章 中 ， 我 还 想 简 单 地 提 一 下 读 取 吞吐 量 。 通常， 键 值 存储 系统 应 该 能 够 支持 大 量 的 
读 请 求 。 那 么 你 将 使 用 什么 方法 来 提高 读 取 吞吐 量 ? 


为 了 提高 读 取 知 吐 量 ， 常 用 的 方法 是 总 是 利用 内 存 。 如果 数 据 存储 在 每 个 节点 机 器 的 磁盘 
中 ， 我 们 可 以 将 其 中 的 一 部 分 移动 到 内 存 中 。 更 普遍 的 想法 是 使 用 缓存 。 由 于 设计 缓存 系统 
的 文章 已 经 深入 分 析 了 这 个 话题 ， 所 以 在 这 里 我 就 不 多 说 了 。 


这 结 


八 


不 要 把 这 里 的 分 析 看 作 标 准 答案 。 相 反 ， 这 些 常 见 的 解决 方案 应 该 给 你 灵感 ， 来 帮助 你 想 出 
不 同 的 想法 S 


没有 适用 于 每 个 系统 的 解决 方案 ， 你 应 该 总 是 根据 特定 的 情况 调整 你 的 方法 。 


设计 键 值 存储 人 
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构建 网 页 个 里 


原文 : Build a Web Crawler 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 
让 我 们 来 谈 谈 这 个 流行 的 系统 设计 面试 问题 - 如 何 建 立 一 个 网 络 扑 虫 ? 


ep a 的 系统 之 一 。 最 流行 的 例子 是 Google 使 用 爬虫 从 所 有 网 站 收集 信息 。 
除了 搜索 引擎 之 外 ， 新 闻 网 站 还 需要 仆 虫 来 聚合 数据 源 。 看 来 ， 只 要 你 想 聚 合 大 量 的 信息 
你 可 以 考 卡 使 用 相册 ° 


建立 一 个 网 络 疏 由 有 很 多 因素 ， 特 别 是 当 你 想 扩 展 系统 时 。 这 就 是 为 什么 这 已 经 成 为 最 流行 
的 系统 设计 面试 问题 之 一 。 在 这 篇 文章 中 ， 我 们 将 讨论 从 基本 爬虫 到 大 型 卜 虫 的 主题 ， 并 讨 
论 在 面试 中 可 能 会 遇 到 的 各 种 问题 。 


基本 解决 方案 
如 何 建立 一 个 基本 的 网 络 疏 虫 ? 


在 系统 设计 面试 之 前 ， 我 们 已 经 在 《系统 设计 面试 之 前 需要 知道 的 八 件 事 》 中 谈 到 ， 就 是 从 
简单 的 东西 开始 。 让 我 们 专注 于 构建 在 单线 程 上 运行 的 基本 网 页 爬虫 。 有 了 这 个 简单 的 解决 
方案 ， 我 们 可 以 继续 优化 。 


要 抓 取 单 个 网 页 ， 我 们 只 需要 向 相应 的 URL 发 出 HTTP GET 请 求 ， 并 解析 响应 数据 ， 这 是 
抓 取 工具 的 核心 。 考 虑 到 这 一 点 ， 一 个 基本 的 网 络 爬 虫 可 以 这 样 工作 : 


e。 以 包含 我 们 要 抓 取 的 所 有 网 站 的 网 址 池 开 始 。 

。 对 于 每 个 URL ,发 出 HTTP GET 请 求 来 获取 网 页 内 容 。 

。 解析 内 容 (通常 为 HTML) 并 提取 我 们 想 要 抓 取 的 潜在 网 址 。 
e 添加 新 的 网 址 到 池 中 ， 并 不 断 抓 取 。 


这 取决 于 具体 问题 ， 有 时 我 们 可 能 会 有 一 个 独立 的 系统 来 生成 抓 取 网 址 。 例 如 ， 一 个 程序 可 
以 不 断 监 听 RSS 订阅 ， 并 且 对 于 每 个 新 文章 ， 都 可 以 将 该 URL 添加 到 处 取 池 中 。 


2 - 规模 问题 


绢 


众所周知 ， 任 何 系统 在 扩展 后 都 会 面临 一 系列 问题 。 在 网 络 候 虫 中， 将 系统 扩展 到 多 台 机 
时 ， 有 很 多 东西 可 能 出 错 。 


在 跳 转 到 下 一 节 之 前 ， 请 花 几 分 钟 的 时 间 思 考 一 下 分 布 式 网 络 扑 虫 的 瓶颈 ， 以 及 如 何 解 决 这 
个 问题 。 在 这 篇 文章 的 其 余部 分 ， 我 们 将 讨论 解决 方案 的 几 个 主要 问题 。 


3 - 抓 取 频率 
你 多 久 氟 一 次 网 站 ? 


这 听 起 来 可 能 不 是 什么 大 事 ， 除 非 系统 达到 一 定 的 规模 ， 而 且 你 需要 非常 新 鲜 的 内 容 。 例 
如 ， 如 果 你 想 要 获取 上 一 小 时 的 最 新 消息 ， 则 抓 取 工具 可 能 需要 每 隔 一 小 时 不 断 抓 取 新 闻 网 
站 。 但 是 这 有 什么 问题 呢 ? 


对 于 一 些小 型 网 站 ， 他 们 的 服务 器 很 可 能 无 法 处 理 这 种 频繁 的 请 求 。 一 种 方法 是 遵循 每 个 站 
点 的 robot,txt 。 对 于 不 知道 robot .txt 是 什么 的 人 ， 这 基本 是 网 站 与 网 络 卜 虫 交流 的 标准 。 
它 可 以 指定 不 应 该 抓 取 什 么 文件 ， 大 多 数 网 络 爬 虫 都 遵循 配置 。 另 外 ， 你 可 以 为 不 同 的 网 站 
设置 不 同 的 抓 取 频 率 。 通 常 ， 每 天 只 有 几 个 网 站 需要 被 多 次 抓 取 。 


4 - 去 重 


在 一 台 机 器 上 ， 你 可 以 将 URL 池 保 留 在 内 存 中 ， 并 删除 重复 的 条 目 。 但 是 ， 分 布 式 系统 中 的 
人 更 加 复杂 。 基 本 上 ， 多 个 已 虫 可 以 从 不 同 的 网 页 中 提取 相同 的 URL， 他 们 都 希望 将 

这 个 URL 添加 到 URL 池 中 。 当 然 ， 多 次 抓 取 同一 页 面 是 没有 意义 的 。 那 么 我 们 如 何 去 重 复 
这 些 网 址 ? 


一 种 常用 的 方法 是 使 用 Bloom Filter。 简 而 言 之 ， 布 隆 过 滤器 是 一 个 节省 空间 的 系统 ， 它 允许 
你 测试 一 个 元 素 是 否 在 一 个 集合 中 。 但 是 ， 它 可 能 有 误 报 。 换 名 话说 ， 如 果 布 隆 过 滤器 可 以 
告诉 你 一 个 URL 绝对 不 在 池 中 ， 或 者 可 能 在 池 中 。 


为 了 简要 地 解释 布 隆 过 滤器 是 如 何 工作 的 ， 空 布 隆 过 滤器 是 mm 位 (全 8) 的 位 数组 。 

有 k 个 散 列 函数 ， 将 每 个 元 素 映 射 到 m 位 中 的 一 个 。 所 以 当 我 们 在 布 隆 过 滤器 中 a 
的 元 素 (URL) 时 ， 我 们 将 从 哈 希 函数 中 得 到 k 位 ， 并 将 它们 全 部 设置 为 1 .因此 ， 当 我 们 
检查 一 个 元 素 的 存在 时 ， 我 们 首先 得 到 k 位 ， 如 果 它 们 中 的 任何 一 个 不 是 1 ， 我 们 立即 知道 
该 元 素 不 存在 。 但 是 ， 如 果 所 有 的 k 位 都 是 1， 这 可 能 来 自 其 他 几 个 元 素 的 组 合 。 


布 隆 过 滤器 是 一 个 非常 常用 的 技术 ， 它 是 一 个 完美 的 解决 方案 ， 用 于 在 网 络 疏 虫 中 去 重 网 
址 。 


5 - 解析 


从 网 站 获取 响应 数据 后 ， 下 一 步 是 解析 数据 (通常 是 HTML) 来 提取 我 们 所 关心 的 信息 。 这 
听 起 来 像 一 个 简单 的 事情 ， 但 是 ， 可 能 很 难 使 其 健壮 。 


我 们 面临 的 挑战 是 ， 你 总 是 会 在 HTML 代码 中 发 现 奇 怪 的 标记 ，URL 等 ， 很 难 涵盖 所 有 的 边 
界 情况 。 例 如 ， 当 HTML 包含 非 Unicode 字符 时 ， 你 可 能 需要 处 理 编 解 码 问 题 。 另 外 ， 当 网 
包含 图 片 ， 视 频 甚 至 PDF 时 ， 也 会 造成 奇怪 的 行为 。 


另外 ， 一 些 网 页 都 像 使 用 AngularJS 一 样 通过 Javascript 呈现 ， 你 的 抓 取 工 具 可 能 无 法 得 到 
任何 内 容 。 


我 会 说 没有 银 弹 ， 不 能 为 所 有 的 网 页 做 一 个 完美 的 ， 健 壮 的 卜 虫 。 你 需要 大 量 的 健 闪 性 测 
试 ， 以 确保 它 能 够 按 预期 工作 。 


还 有 很 多 我 还 没有 涉及 到 的 有 趣 的 话题 ， 但 是 我 想 提 一 下 其 中 的 一 些 ， 这 样 你 就 可 以 思考 
了 。 有 一 件 事 是 检测 循环 。 许 多 网 站 包含 链接 ， 如 A->B->C->A ， 你 的 疏 虫 可 能 会 永远 运行 。 
想 想 如 何 解决 这 个 问题 ? 


另 一 个 问题 是 DNS 查找 。 当 系统 扩展 到 一 定 的 水 平时 ，DNS 查找 可 能 是 一 个 瓶颈 ， 你 可 能 
要 建立 自己 的 DNS 服务 器 。 


与 许多 其 他 系统 类 似 ， 扩 展 的 网 络 爬 虫 可 能 比 构建 单个 机 器 版 本 困难 得 多 ， 并 且 在 系统 设计 
面试 中 可 以 讨论 许多 事情 。 尝 试 从 一 些 朴素 的 解决 方案 开始 ， 并 继续 优化 它 ， 这 可 以 使 事情 
变 得 比 看 起 来 更 容易 。 


设计 垃圾 回收 系统 (第 一 部 分 ) 


原文 : Design a Garbage Collection System (Part |) 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 

自豪 地 采用 谷歌 翻译 


我 们 的 系统 设计 面试 系列 在 过 去 几 个 月 得 到 了 很 多 反馈 。 我 很 高 兴 ， 我 们 的 读者 觉得 有 
帮助 。 

我 经 常 给 的 一 个 建议 是 不 要 把 这 些 文章 作为 标准 答案 。 系 统 设计 面试 问题 通常 是 开放 式 的 ， 
全 部 是 关于 分 析 和 交流 。 讨 论 中 的 任何 一 点 都 可 以 根据 面试 官 的 偏好 进行 更 深入 的 研究 。 


本 周 ， 这 个 问题 略 有 不 同 ， 因 为 它 有 点 低级 ， 但 同时 也 相当 有 用 - 垃圾 回收 系统 。 垃 圾 回收 系 
统 不 仅 在 很 多 现代 编程 语言 中 广泛 使 用 ， 同 样 的 思想 也 可 以 适应 其 他 领域 。 


你 对 垃圾 回收 了 解 多 少 ? 


许多 面试 官 喜欢 与 候选 人 讨论 语言 偏好 。 有 时 就 像 热 身 讨 论 ， 但 有 时 候 他 们 想 要 更 深入 。 垃 
圾 回收 必然 会 包含 在 讨论 当中 ， 因 为 它 是 几乎 所 有 编程 语言 中 最 重要 的 概念 之 一 。 


作为 一 个 面试 官 ， 我 想 这 样 开始 讨论 ， 询 问 “ 告 诉 我 你 对 垃圾 回收 的 了 解 *。 这 个 问题 可 以 让 我 
了 解 ， 候 选 人 对 这 个 话题 有 多 熟悉 。 

请 记 住 ， 要 在 面试 中 表现 出 色 ， 你 不 一 定 需要 了 解 很 多 垃圾 回收 的 知识 ， 因 为 面试 官 关心 分 
析 而 不 是 知识 。 另 一 方面 ， 了 解 很 多 垃圾 回收 并 不 意味 着 你 可 以 轻松 通过 面试 。 


回 到 问题 ， 垃 圾 回收 是 一 种 系统 ， 可 以 自动 回收 编程 语言 中 未 使 用 的 内 存 。 Java 是 一 个 最 流 
行 的 例子 。 编 写 Java 时 ， 你 不 需要 控制 如 何 分 配 和 回收 内 存 。 一 切 都 发 生 在 背后 


优 缺 点 


么 为 什么 我 们 需要 垃圾 回收 ?很 多 人 可 以 轻易 说 出 垃圾 回收 的 优点 ， 但 是 当 被 问 及 垃圾 回 
收 的 缺点 时 会 感到 困惑 。 同 样 ， 如 果 你 能 很 好 把 握 程序 的 工作 ， 你 可 以 通过 分 析 问 题 轻松 得 
出 好 的 答案 ， 这 不 是 你 需要 记 住 的 事实 。 
垃圾 回收 的 最 明显 的 好 处 是 它 使 编程 更 容易 。 请 记 住 ， 当 我 们 编写 C ++ 时 ， 我 们 需要 非常 小 
心 指针 和 内 存 分 配 〈 译 者 注 : 也 可 以 使 用 智能 指针 来 避免 它 ) 。 通 过 让 程序 自己 处 理 所 有 这 
些 ， 开 发 人 员 可 以 更 多 关注 核心 逻辑 。 


更 具体 地 说 ， 首 先 垃圾 回收 有 助 于 开发 人 员 避 免 几 个 内 存 问 题 ， 它 防止 访问 巧 挂 指针 ， 它 指 
向 不 再 存在 的 对 象 。 其 次 ， 它 防止 释放 已 经 释放 的 内 存 区 域 (双重 释放 ) 。 最 后 ， 它 避免 了 
内 存 泄 漏 ， 这 意味 着 无 法 释放 不 可 访问 的 内 存 区 域 。 当 开发 人 员 尝 试 手动 管理 内 存 时 ， 所 有 
这 些 都 是 常见 的 缺陷 。 


么 有 什么 缺点 呢 ? 显然 ， 有 许多 语言 没有 像 C++ 那样 的 内 置 垃圾 回收 。 


最 大 的 缺点 是 垃圾 回收 会 消耗 计算 资源 。 想 一 想 ， 垃 圾 回收 不 仅 需 要 实现 逮 辑 来 回收 内 存 ， 
还 要 消耗 内 存 来 存储 对 象 的 状态 。 在 一 些 朴 素 的 垃圾 回收 实现 中 ， 回 收 过 程 甚至 可 能 会 阻塞 
程序 。 


另 一 种 思考 的 方式 是 ， 如 果 没 有 垃圾 回收 ， 开 发 人 员 可 以 完全 控制 内 存 的 使 用 方式 ， 从 而 使 
程序 具有 更 大 的 灵活 性 ， 更 容易 优化 。 这 就 是 为 什么 C++ 更 高 效 的 原因 之 一 。 当 然 ， 它 也 容 
易 出 错 。 


设计 一 个 简单 的 垃圾 回收 系统 
那么 如 何 设计 垃圾 回收 系统 ? 试 着 自己 想 想 这 个 问题 。 如 果 你 没有 先前 的 知识 ， 这 会 更 好 。 
我 不 想 跳 到 解决 方案 ， 而 是 想 告诉 你 如 何 逐 步 分 析 这 个 问题 。 


由 于 垃圾 回收 系统 的 本 质 是 回收 程序 中 未 使 用 的 内 存 ， 所 以 关键 是 要 确定 哪 一 块 内 存 是 未 使 
用 的 。 更 具体 地 说 ， 我 们 应 该 搜索 不 再 被 引用 的 变量 。 


如 果 考 虑 程序 中 的 所 有 对 象 〈 变 量 ) ， 就 像 一 个 有 向 图 ， 每 个 对 象 引用 其 他 对 象 ， 同 时 也 被 
0 因此 ， 那 些 没 有 任何 引用 的 ， 不 可 到 达 正如 你 所 看 到 
的 ， 这 个 大 问题 已 经 简化 为 一 个 图 问题 - 在 一 个 图 中 找到 不 可 达 的 节 


朴素 的 标记 和 扫描 


事实 上 上， 上述 解决 方案 只 是 最 朴素 的 方法 ， 被 称 为 标记 和 扫描 。 首 先 ， 垃 圾 回收 系统 执行 树 
的 遍历 来 对 象 引用 ， 并 标记 所 有 访问 的 对 象 。 在 第 二 阶段 ， 对 于 所 有 无 法 访问 的 对 象 ， 释 放 
它们 的 内 存 。 


但 是 系统 如 何 跟踪 那些 不 可 达 的 对 象 呢 ? 一 个 简单 的 方法 是 保存 程序 中 的 所 有 对 象 。 每 当 一 
个 新 的 对 象 被 初始 化 时 ， 将 它 添加 到 池 中 。 


这 结 


/ 


你 已 经 看 到 了 ， 标 记 和 扫描 方法 的 本 质 与 简单 的 图 的 遍历 问题 没有 什么 不 同 。 这 就 是 我 总 是 
强调 基础 数据 结构 /工法 的 原因 ， 这 是 所 有 技术 面试 问题 的 基础 。 


在 垃圾 回收 系统 的 第 二 篇 文章 中 ， 我 们 将 讨论 标记 和 扫描 的 问题 ， 并 与 其 他 实现 进行 比较 。 
我 们 还 将 讨论 现代 语言 中 的 垃圾 回收 。 


设计 垃圾 回收 系统 (第 二 部 分 ) 


原文 : Design a Garbage Collection System (Part ||) 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 

自豪 地 采用 谷歌 翻译 


这 是 设计 垃圾 回收 系统 系列 的 第 二 篇 文章 。 如 果 没 有 阅读 我 们 的 第 一 篇 文章 ， 请 查看 一 下 ， 
为 我 们 将 继续 我 们 上 次 的 讨论 。 


在 我 们 之 前 的 文章 中 ， 我 们 一 直 在 谈论 垃圾 回收 的 基本 概念 ， 垃 圾 回收 是 一 种 在 编程 语言 中 
自动 回收 未 使 用 的 内 存 的 系统 。 垃 圾 回收 为 什么 很 酷 就 很 明显 。 它 允许 开发 人 员 无 需 关心 内 
存 管理 ， 编 写 更 强大 的 代码 。 另 一 方面 ， 这 可 能 会 影响 性 能 ， 并 且 使 用 内 存 的 灵活 性 较 小 。 


为 了 继续 我 们 的 讨论 ， 我 会 更 多 讨论 这 种 朴素 的 标记 和 扫描 方法 ， 以 及 我 们 如 何 改 进 它 。 我 
还 将 介绍 其 他 常见 的 设计 垃圾 回收 系统 的 方法 。 


pe 二 
朴素 的 标记 和 扫描 ( 续 ) 
朴素 的 标记 和 扫描 方法 的 想法 是 非常 简单 的 。 系 统 执 行 树 的 遍历 来 跟踪 对 象 引用 ， 并 标记 所 
有 访问 的 对 象 。 在 第 二 阶段 ， 对 于 所 有 无 法 访问 的 对 象 ， 释 放 它们 的 内 存 。 
显然 ， 这 个 方法 很 容易 理解 和 实现 。 那 么 有 什么 缺点 呢 ? 


最 值得 注意 的 问题 是 整个 系统 在 垃圾 回收 过 程 中 必须 暂停 。 换 名 话说， 在 垃圾 回收 时 偶尔 会 
冻结 问题 ， 工 作 集 不 允许 改动 。 因 此 ， 这 将 显 着 影响 对 时 间 要 求 严 格 的 应 用 的 性 能 。 


改进 


鉴于 标记 和 扫描 的 性 能 问题 ， 现 代 垃圾 回收 系统 采取 了 稍微 不 同 的 方法 - 三 色 着 色 。 

让 我 简单 介绍 一 下 这 个 算法 。 简 而 言 之 ， 系 统 将 所 有 对 象 标记 为 三 种 颜色 : 

。 白色 -没有 引用 ， 应 该 回收 的 对 象 。 

。 黑色 -不 可 回收 的 可 达 对 象 。 黑 色 的 对 象 不 引用 白色 的 对 象 。 

。 灰色 - 可 从 根 到 达 的 对 象 ， 但 没有 扫描 是 否 引 用 了 白色 对 象 。 

最 初 ， 从 根 引用 的 所 有 对 象 都 是 灰色 的 ， 白 色 的 集合 包括 其 他 所 有 东西 (黑色 是 空 的 ) 。 系 
统 每 次 挑选 一 个 对 象 从 灰色 放 到 黑色 中 ， 并 将 其 所 有 引用 从 白色 移动 到 灰色 。 最 后 ， 灰 色 变 
成 宅 的 ， 所 有 的 白色 对 象 都 被 回收 。 


最 显 着 的 优势 在 于 系统 可 以 即时 进行 垃圾 回收 ， 这 通过 在 分 配对 象 和 改动 期 间 标记 对 象 来 实 
现 。 因 此 ， 程 序 不 会 长 时 间 停止 ， 性 能 得 到 改善 。 


引用 计数 
那么 有 没有 设计 垃圾 回收 系统 的 其 他 方法 ， 不 会 冻结 程序 呢 ? 


一 个 自然 的 解决 方案 是 引用 计数 ， 这 个 想法 是 非常 简单 的 。 垃 圾 回收 的 核心 概念 是 当 一 个 对 
象 没有 引用 时 ， 我 们 应 该 尽快 回收 它 。 那 么 为 什么 不 跟踪 每 个 对 象 的 引用 计数 呢 ? 

引用 计数 系统 将 为 每 个 对 象 维护 一 个 计数 器 ， 来 计算 它 所 拥有 的 引用 数量 。 计 数 器 在 创建 引 
用 时 递增 ， 并 且 在 销毁 引用 时 递减 。 当 计数 器 为 0 时 ， 对 外 应 该 被 回收 。 显 然 ， 系 统 可 以 在 
正确 的 时 间 释 放 内 存 ， 因 此 可 以 进行 垃圾 回收 。 


这 种 方法 有 什么 缺点 ? 


引用 计数 的 缺点 


显然 ， 引 用 计数 器 增加 了 整个 系统 的 空间 开销 。 由 于 每 个 对 象 都 需要 额外 的 存储 空间 来 存储 
引用 计数 ， 因 此 没有 任何 优化 的 情况 下 ， 所 需 的 总 空间 显 着 增加 。 


另 一 个 问题 是 速度 的 开销 。 由 于 系统 需要 不 断 更 新 计数 器 ， 程 序 中 的 每 个 操作 都 需要 修改 一 
个 或 多 个 参考 计数 器 。 另 一 种 理解 它 的 方法 是 ， 引 用 计数 系统 不 是 将 程序 冻结 来 回收 对 象 ， 
而 是 将 开销 分 成 每 个 小 操作 。 了 既然 你 无 法 免费 获得 所 有 的 东西 ， 你 需要 决定 是 否 希 望 每 一 个 
操作 都 稍微 慢 一 些 ， 或 者 偶尔 停止 整个 程序 。 


另外 ， 循 环 引 用 也 可 能 是 引用 计数 的 问题 。 如 果 两 个 对 象 相互 引用 ， 它 们 将 永远 不 会 被 回 
收 。 如 果 你 有 obj-c 的 经 验 ， 你 应 该 已 经 知道 解决 方案 。 一 些 语言 为 创建 循环 的 反 向 指针 引入 
了 "“ 弱 引用 "的 概念 。 它 是 一 个 特殊 的 引用 对 象 ， 它 的 存在 不 会 增加 引用 对 象 的 引用 计数 。 


总 结 


八 
垃圾 回收 是 一 个 有 趣 的 话题 ， 因 为 每 个 程序 员 都 应 该 基本 了 解 。 更 重要 的 是 ， 它 可 以 帮助 你 
理解 为 什么 有 些 程序 以 不 同 的 方式 设计 。 


对 于 系统 设计 面试 ， 重 要 的 是 要 注意 ， 你 不 一 定 需要 有 太 多 的 先 验 知识 。 在 面 对 新 问题 时 提 
供 合 理 的 分 析 更 为 重要 。 考 虑 到 这 一 点 ， 即 使 你 不 是 编程 语言 方面 的 专家 ， 你 仍然 可 以 通过 
垃圾 回收 的 面试 。 


如 果 你 想 更 多 了 解 这 个 话题 ， 我 也 建议 你 看 看 为 什么 C++ 没有 垃圾 回收 器 的 讨论 ? 


A 
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设计 电 商 网 站 (第 一 部 分 ) 

原文 : Design eCommerce Website (Part |) 

译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 

自豪 地 采用 谷歌 翻译 
在 过 去 几 周 里 ， 很 多 人 要 求 我 们 讨论 电子 商务 网 站 。 这 个 话题 不 仅 在 相当 多 的 系统 设计 面试 
中 被 提出 ， 而 且 电子 商务 网 站 也 如 此 受 欢 迎 ， 为 此 开发 了 大 量 的 技术 和 研究 。 


在 深入 探讨 这 个 话题 之 前 ， 最 好 先 了 解 为 什么 设计 电子 商务 网 站 在 系统 设计 面试 中 很 受 欢 
迎 。 首 先 ， 建 立 一 个 电子 商务 网 站 需要 数据 库 设计 ， 系 统 可 用 性 ， 并 发 性 考虑 等 东西 。 所 有 
这 些 在 今天 的 分 布 式 系统 中 都 是 非常 重要 的 。 另 外 ， 每 个 人 都 使 用 像 亚马逊 这 样 的 电子 商务 
网 站 。 如 果 你 对 周围 环境 一 般 很 好 奇 ， 你 应 该 已 经 想 过 这 个 话题 了 。 


电子 商务 模式 


在 我 们 的 《系统 设计 面试 之 前 需要 知道 的 八 件 事 》 中 ， 我 们 说 系统 设计 面试 的 一 个 共同 策略 
是 从 简单 而 基本 的 事情 开始 ， 而 不 是 直接 跳 到 细节 。 那 么 如 何 设计 电子 商务 网 站 的 基本 数据 
结构 呢 ? 数据 库 模式 呢 ? 


我 将 跳 过 用 户 模型 的 数据 结构 ， 因 为 它 应 该 与 其 他 应 用 程序 非常 相似 。 让 我 们 专注 于 商品 。 
在 最 简单 的 情况 下 ， 我 们 需要 三 个 主要 对 象 : 商品 ， 用 户 和 订单 。 


商品 定义 了 购物 车 中 商品 的 基本 模型 。 一 些 重要 的 字段 包括 价格 ， 余 额 ， 名 称 ， 描 述 和 类 
别 。 类 别 在 这 里 可 能 会 很 棘手 。 当 然 ， 你 可 以 在 SQL 数据 库 中 创建 一 个 字符 串 字 段 ， 但 更 好 
的 方法 是 创建 一 个 类 别 表 ， 包 人 钨 类 别 ID， 名 称 和 其 他 信息 。 所 以 每 个 商品 都 可 以 持 有 一 个 类 
别 ID 。 


订单 存储 用 户 所 下 的 所 有 订单 的 信息 。 所 以 每 一 行 都 包含 商品 ID， 用 户 ID， 数 量 ， 时 间 改 ， 
状态 等 等 。 因 此 ， 当 用 户 进行 结 帐 时 ， 我 们 汇总 与 此 用 户 关联 的 所 有 条 目 来 显示 在 购物 车 中 
(当然 ， 我 们 应 该 过 滤 掉 以 前 购买 的 商品 ) 。 


译 者 注 : 订单 和 订单 商品 是 一 对 多 的 关系 ， 所 以 还 得 分 成 两 张 表 。 
电子 商务 中 的 NoSQL 


在 上 面 的 分 析 中 ， 我 们 使 用 了 像 MySQL 这 样 的 关系 数据 库 。 事 实 上 ，NoSQL 数据 库 有 时 候 
可 以 成 为 电子 商务 网 站 的 更 好 选择 。 


很 多 人 不 知道 NoOSQL， 通 俗 地 说 ，NoSQL 数据 库 试 图 将 一 堆 东西 存储 在 一 行 而 不 是 多 个 表 
中 。 例 如 ， 我 们 可 以 将 用 户 已 经 购买 的 所 有 物品 存储 在 用 户 表 的 同一 行 中 ， 而 不 是 单独 的 订 
单 表 。 因 此 ， 在 获取 用 户 的 时 候 ， 我 们 不 仅 可 以 获取 所 有 的 个 人 信息 ， 还 可 以 获取 他 的 购买 
历史 。 


为 什么 NoSQL 在 这 种 情况 下 可 以 稍微 好 一 点 ? 我们 以 商品 模型 为 例 。 假 设 我 们 正在 出 售 书 
籍 。 商 品 具有 书籍 类 别 和 作者 ， 发 布 日 期 ， 版 本 ， 页 面 数量 等 属性 ， 这 个 SQL 表 可 能 有 20 
列 。 没 关系 。 


而 现在 ， 我 们 也 想 卖 笔记 本 电脑 。 因 此 ， 商 品 还 应 该 存储 笔记 本 电脑 的 属性 ， 包 括 品 牌 名 
称 ， 大 小 ， 颜 色 等 等 。 正 如 你 可 以 想象 的 ， 随 着 更 多 类 别 的 介绍 ， 商 品 表格 可 以 包含 大 量 的 
列 。 如 果 每 个 类 别 平 均 有 10 个 属性 ， 它 将 是 100 列 ， 这 还 是 只 支持 了 10 个 类 别 ! 


但 是 对 于 像 MongoDB 这 样 的 NoSQL 数据 库 来 说 ， 一 个 很 大 的 好 处 就 是 它 支持 像 这 样 的 庞大 
数量 的 “ 列 "。 每 行 可 以 有 大 量 的 列 ， 但 不 是 全 部 都 设置 的 。 这 就 像 将 JSON 对 象 存储 为 一 行 
(实际 上 ，MongoDB 使 用 的 是 类 似 的 东西 BSON) 。 因 此 ， 我 们 可 以 将 商品 的 所 有 属性 

( 列 ) 存储 在 一 行 中 ， 这 正 是 NoSQL 数据 库 所 擅长 的 。 


并 发 


我 们 继续 讨论 扩展 问题 。 将 电子 商务 网 站 扩展 到 多 台 机 器 时 ， 会 出 现 大 量 问题 。 最 重要 的 
是 ， 电 子 商务 网 站 对 这 些 问题 几乎 是 零 容忍 的 。 


以 并 发 为 例 。 比 方 说 ， 商 店 里 只 剩 下 一 本 书 ， 两 个 人 同时 购买 。 没 有 任何 并 发 机 制 ， 它 们 都 
成 功 地 购买 了 这 本 书 是 完全 可 能 的 。 你 如 何 实现 电子 商务 网 站 的 并 发 ? 


我 们 一 步 一 步 分 析 一 下 。 根 据 我 们 从 操作 系统 中 学 到 的 东西 ， 我 们 知道 锁 是 保护 公共 资源 最 
常用 的 技术 。 假 设 用 户 人 A 和 B 都 想 购买 同一 本 书 。 我 们 可 以 做 的 是 ， 当 A 获取 有 关 本 书 的 数 
据 时 ， 在 这 一 行 上 放置 一 个 锁 ， 以 便 其 他 人 不 能 访问 它 。 一 旦 A 完 成 购买 (减少 剩余 的 数 
量 ) ， 我 们 释放 锁 ， 以 便 B 可 以 访问 数据 。 同 样 的 方法 应 该 适用 于 所 有 的 资源 ， 这 可 以 完全 
解决 这 个 问题 。 


上 述 解决 方案 称 为 悲观 并 发 控制 。 尽 管 它 可 以 防止 并 发 造成 的 所 有 冲突 ， 但 缺点 是 开销 较 
大 。 显 然 ， 对 于 每 一 次 数据 访问 ， 我 们 都 需要 创建 并 释放 一 个 锁 ， 这 在 大 多 数 情况 下 可 能 是 
不 必要 的 。 


我 们 可 以 解决 这 个 问题 吗 ? 


总 结 
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b 


在 下 一 篇 文章 中 ， 我 们 将 讨论 解决 并 发 问题 的 更 好 方法 ， 而 不 是 使 用 锁 。 我 想 讨 论 很 多 电子 
商务 网 站 的 话题 。 


事实 上 ， 许 多 技术 在 所 有 分 布 式 系统 中 都 是 常见 的 ， 重 要 的 是 比较 每 种 方法 的 优 缺点 ， 并 选 
择 最 适合 特定 应 用 的 方法 。 


在 下 一 篇 文章 中 ， 我 们 将 继续 讨论 并 发 性 ， 并 将 讨论 系统 可 用 性 和 一 致 性 。 


顺便 提 一 下 ， 如 果 你 想得到 资深 的 面试 官 的 更 多 指导 ， 可 以 查看 Gainlo， 以 便 与 Google， 
Facebook 等 公司 的 工程 师 进 行 模拟 面试 。 


“由 AN > ~ rx 加 本 杞 
设计 电 商 网 站 (第 二 部 分 ) 
原文 : Design eCommerce Website (Part 中 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 


这 是 设计 电子 商务 网 站 系列 文章 的 第 二 篇 文章 。 如 果 你 还 没有 阅读 第 一 篇 文章 ， 最 好 先 查看 
一 下 ， 因 为 我 们 将 在 这 里 继续 讨论 。 


为 了 简要 地 提醒 你 我 们 在 前 一 篇 文章 中 讨论 过 的 内 容 ， 我 们 从 电子 商务 网 站 的 数据 模型 设计 
开始 。 尽管 关 系数 据 库 是 最 常见 的 方法 ， 但 是 我 们 注意 到 像 MongoDB 这 样 的 NoSQL 数据 
库 ， 在 构建 电子 商务 网 站 时 提供 了 很 多 优势 和 灵活 性 。 为 了 扩展 系统 ， 并 发 性 是 要 考虑 的 关 
键 因 素 之 一 。 


在 这 篇 文章 中 ， 我 主要 关注 电子 商务 网 站 的 可 扩展 性 。 构 建 单机 系统 可 能 很 简单 ， 但 是 当 我 
们 决定 使 用 多 个 服务 器 扩展 网 站 ， 来 支持 数 百 万 甚至 数 十 亿 个 请 求 时 ， 需 要 考虑 大 量 的 可 扩 
展 性 问题 。 


并 发 ( 续 ) 


一 种 常见 的 情况 是 商店 里 只 剩 下 一 本 书 ， 两 个 人 同时 购买 。 没 有 任何 并 发 机 制 ， 它 们 都 成 功 
地 购买 了 这 本 书 是 完全 可 能 的 。 


在 我 们 以 前 的 文章 中 ， 我 们 知道 有 一 种 方法 是 ， 每 当 有 人 访问 资源 ( 书 ) 时 ， 就 对 该 行进 行 
锁定 ? 以 便 一 次 最 多 只 能 有 一 个 人 读 / 写 数据 o 该 解决 方案 称 为 悲观 并 发 控制 尽管 这 种 方法 
可 以 防止 两 个 人 同时 访问 相同 的 数据 ， 但 是 上 锁 却 开销 较 大 。 你 将 如 何 更 有 效 地 解决 这 个 问 
题 ? 


乐观 并 发 控制 是 并 发 的 另 一 种 方式 。 这 个 想法 非常 简单 - 不 使 用 锁 ， 每 个 进程 /线程 都 可 以 自 
由 地 访 问 数 据 o 但 是 » 在 提交 更 改 之 前 9 每 个 事 务 都 应 检查 数据 是 否 与 上 次 读 取 时 的 状态 相 
同 。 换 句 话说， 你 在 事务 开始 时 检查 数据 ， 并 在 提交 之 前 再 次 检查 它们 是 否 仍然 相同 。 


如 果 数 据 没有 修改 ， 你 可 以 安全 地 提交 它 。 否 则 ， 请 回 滚 并 重 试 ， 直 到 没有 冲突 。 比 较 两 种 
方法 是 很 重要 的 。 对 于 OCC (乐观 并 发 控制 ) ， 除 非 存 在 冲突 ， 否 则 读 / 写 数据 显然 更 为 高 
效 。 考 虑 到 这 一 点 ， 对 于 不 太 可 能 发 生 冲突 的 系统 来 说 ，OCC 是 一 个 更 好 的 选择 。 但 是 ， 当 
多 个 客户 端 频繁 访问 资源 时 ， 在 OCC 中 重新 启动 事务 变 得 开销 很 天， 并且 在 每 个 事务 中 上 锁 
(PCC) 必然 会 更 好 。 


在 像 亚马逊 这 样 的 应 用 中 ， 有 这 么 多 的 产品 ， 多 个 人 并 不 经 常 同时 访问 同一 个 产品 。 因 此 ， 
OCC 是 一 个 更 好 的 选择 。 


电子 商务 中 的 可 用 性 


如 果 亚 马 过 网 站 宕 机 一 分 钟 ， 这 是 一 个 巨大 的 损失 。 要 在 分 布 式 系统 中 实现 高 可 用 性 ， 最 好 
的 方法 是 拥有 数 百 或 数 千 个 宛 余 ， 以 便 可 以 容忍 许多 故障 。 但 是 ， 这 里 值得 注意 的 是 ， 可 用 
性 和 一 致 性 是 齐头并进 的 


如 果 你 有 很 多 宛 余 ， 确 保 每 个 宛 余 都 有 相同 的 数据 是 非常 困难 的 。 另 一 方面 ， 如 果 你 想 达 到 
高 一 致 性 ， 你 最 好 有 更 少 的 宛 余 ， 因 此 系统 很 容易 失败 。 


这 里 的 想法 并 不 是 要 同时 实现 。 相 反 ， 根 据 产 品 的 性 质 ， 你 应 该 能 够 做 出 权衡 。 对 于 电子 商 
务 网 站 而 言 ， 延 迟 和 停机 时 间 通 常 意味 着 收入 的 减少 ， 有 时 这 可 能 是 个 很 大 的 数字 。 因 此 ， 
我 们 可 能 更 关心 可 用 性 而 不 是 一 致 性 。 后 者 可 以 通过 其 他 途径 改进 
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电子 商务 的 一 致 性 


鉴于 我 们 有 成 百 上 千 的 宛 余 ， 你 如 何 保证 每 个 宛 余 持 有 相同 的 数据 ?为 了 详细 解释 这 个 问 
题 ， 假 设 数 据 D 被 复制 到 多 个 服务 器 中 。 当 进程 尝试 将 D 更 新 为 D1 时 ， 它 将 从 一 台 服 务 器 

开始 ， 并 按照 特定 顺序 传播 更 改 。 与 此 同时 ， 另 一 个 进程 正 试图 将 品 更 新 为 D2 ， 并 可 能 从 
另 一 台 服 务 器 开始 。 结 果 ， 一 些 服务 器 拥有 数据 D1 另 一 些 拥有 D2。 


强 一 致 性 


一 种 方法 是 强制 所 有 更 新 以 原子 方式 ， 以 相同 的 顺序 执行 。 更 具体 地 说 ， 当 有 人 更 新 资源 
时 ， 它 将 锁定 所 有 服务 器 ， 直 到 所 有 服务 器 都 持 有 相同 的 值 (更 新 后 ) 。 因 此 ， 如 果 一 个 应 
用 建立 在 强 一 致 性 的 系统 上 ， 则 与 在 单 台 机 器 上 运行 完全 一 样 。 显 然 ， 这 是 开销 最 大 的 方 
法 ， 因 为 不 仅 锁定 是 开销 较 大 的 ， 而 且 它 也 阻止 了 系统 的 每 次 更 新 。 


弱 一 致 性 


另 一 个 极端 的 情况 是 我 们 可 以 提供 最 低 限 度 的 策略 。 每 个 宛 余 都 会 看 到 每 个 更 新 ， 但 是 ， 它 
们 可 能 会 有 不 同 的 顺序 。 因 此 ， 这 种 方法 使 得 更 新 操作 非常 轻 量 化 ， 但 缺点 是 保证 了 最 低 限 
度 的 一 致 性 。 


注意 : 我 们 没有 解释 一 致 性 模型 的 准确 定义 。 相 反 ， 我 们 想 用 实例 来 说 明 思 想 ， 这 对 于 准备 
系统 设计 面试 更 有 帮助 。 


最 终 的 一 致 性 


你 可 以 想像 ， 更 实用 的 方法 在 两 者 之 间 。 简 而 言 之 ， 系 统 只 保证 每 个 宛 余 最 终 具有 相同 的 
值 。 在 一 定 的 时 间 内 ， 数 据 可 能 不 一 致 。 但 从 长 远 来 看 ， 系 统 能 够 解决 冲突 。 


让 我 们 以 亚 马 进 的 Dynamo 为 例 。 基 本 上 ， 每 个 元 余 可 能 在 特定 的 时 间 保 存 不 同 版 本 的 数 
居 。 所 以 当 客户 端 读 取 数据 时 ， 可 能 会 得 到 多 个 版 本 。 此 时 ， 客 户 端 (而 不 是 数据 库 ) 负责 
解决 所 有 冲突 并 将 其 更 新 回 服务 器 ( 译 者 注 : 读 时 一 致 ， 类 似 于 RAID1) 。 


你 可 能 想 知 道 客户 端 如 何 解决 这 些 冲 突 。 这 主要 是 一 个 产品 决策 。 以 购物 车 为 例 ， 不 丢失 任 
何 添加 是 非常 重要 的 ， 因 为 丢失 添加 意味 着 收入 的 减少 。 所 以 当面 对 不 同 的 值 时 ， 客 户 端 可 
以 选择 物品 最 多 的 那个 。 


总 疆 

心 

你 可 以 看 到 的 ， 这 里 的 很 多 技术 在 分 布 式 系统 中 很 常见 。 重要 的 是 理解 彼此 之 间 的 权衡 ， 并 
选择 最 适合 产品 的 方法 。 


顺便 提 一 下 ， 如 果 你 想得到 资深 的 面试 官 的 更 多 指导 ， 可 以 查看 Gainlo， 以 便 与 Google ， 
Facebook 等 公司 的 工程 师 进 行 模拟 面试 。 


Dropbox 面试 题 -设计 点 击 计数 器 


原文 : Dropbox Interview - Design Hit Counter 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 
我 们 从 一 个 简单 的 问题 开始 - 如 果 你 正在 构建 一 个 网 站 ， 你 如 何 计划 过 去 一 分 钟 的 访客 数量 ? 


最 近 ， 包 括 Dropbox 在 内 的 很 多 公司 都 提出 了 "设计 点 击 计数 器 "的 问题 ， 这 个 问题 比 看 起 来 
要 困难 得 多 。 本 周 ， 我 们 将 揭 开 这 个 问题 的 所 有 奥秘 。 这 篇 文章 讨论 了 几 个 主题 ， 包 括 基本 
的 数据 结构 设计 ， 各 种 优化 ， 并 发 和 分 布 式 计数 器 


这 个 问题 有 什么 特别 之 处 ? 


我 总 是 喜欢 告诉 我 们 的 读者 为 什么 我 们 选择 这 个 问题 进行 分 析 ， 以 便 你 确切 知道 是 否 值得 你 
花 时 间 阅 读 。 作 为 一 名 面试 官 a CR 但 是 通 


过 删除 /添加 特定 的 条 件 ， 讨 论 可 以 越 来 越 深 入 。 这 个 问题 正 是 如 此 。 


而 且 ， 这 个 问题 不 是 无 中 生 有 的 ， 而 是 有 丨 实 的 用 例 。 对 于 今天 的 许多 系统 ， 我 们 需要 一 个 
系统 ， 不 仅 跟 踪 用 户 数 量 ， 而 且 实 时 跟踪 不 同类 型 的 请 求 数量 。 


如 果 你 还 没有 想 过 这 个 问题 ， 那 么 在 阅读 以 下 部 分 之 前 ， 请 花 点 时 间 研 究 一 下 。 


简单 的 情况 

忘记 所 有 的 并 发 问题 和 可 扩展 性 问题 ， 比 方 说 ， 我 们 只 有 一 台 没 有 并 发 请 求 的 机 器 ， 过 去 一 
分 钟 内 如 何 获得 访客 数量 ? 

显然 ， 最 简单 的 解决 方案 是 将 所 有 访客 的 时 间 芍 存储 在 数据 库 中 。 当 有 人 请 求 过 去 一 分 钟 的 
访客 数量 时 ， 我 们 只 需 查看 数据 库 ， 并 进行 过 滤 和 计数 。 一 点 点 的 优化 是 通过 时 间 戳 来 排序 
用 户 ， 这 样 我 们 就 不 会 扫描 整个 表 。 

由 于 时 间 复 杂 度 为 0(N) ， 其 中 N 是 访客 的 数量 ， 所 以 该 解决 方案 效率 不 高 。 如 果 网 站 的 访 
问 量 很 大 ， 函 数 不 能 立即 返回 数量 。 


优化 


有 几 种 方法 来 思考 这 个 问题 。 由 于 上 述 方法 不 仅 返 回访 客 数量 ， 而 且 还 返回 过 去 一 分 钟 的 访 
客 ， 这 在 问题 中 是 不 需要 的 。 这 是 我 们 可 以 优化 的 东西 。 从 另 一 个 角度 来 看 ， 我 们 只 需要 过 

去 一 分 钟 的 数量 而 不 是 任何 时 间 范 围 ， 这 是 我 们 可 以 改进 的 另 一 个 地 方 。 简 而 言 之 ， 通 过 删 
除 不 必要 的 功能 ， 我 们 可 以 优化 我 们 的 解决 方案 。 


一 个 简单 的 想法 是 只 保留 过 去 一 分 钟 的 用 户 ， 随 着 时 间 的 推移 ， 我 们 不 断 更 新 列表 及 其 长 
度 。 这 使 我 们 能 够 立即 获得 数量 。 本 质 上 ， 我 们 减少 了 获取 数量 的 代价 ， 但 是 必须 不 断 更 新 
列表 O 


我 们 可 以 使 用 队列 或 链表 来 存储 过 去 一 分 钟 的 用 户 。 我 们 保留 所 有 元 素 ， 当 最 后 一 个 用 户 
(最 早 的 用 户 ) 的 时 间 为 一 分 钟 以 上 时 ， 从 列表 中 删除 它 并 更 新 长 度 。 


室 间 优化 


由 于 我 们 可 以 在 0(1) 时 间 内 返回 访客 数量 ， 所 以 提高 速度 的 余地 不 大 。 但 是 ， 存 储 过 去 一 分 
钟 的 所 有 用 户 可 能 空间 上 开销 很 大 。 一 个 简单 的 优化 是 只 保留 列表 中 的 用 户 时 间 戳 ， 而 不 是 
用 户 对 象 ， 这 可 以 节省 大 量 的 空间 ， 特 别 是 当 用 户 对 象 很 大 时 。 


如 果 我 们 想 进 一 步 减少 空间 使 用 量 ， 你 会 采取 什么 方法 ? 


考虑 这 个 问题 的 一 个 好 方法 就 是 为 了 改善 室 间 复杂 度 ， 我 们 应 该 牺牲 什么 ? 既然 我 们 仍然 想 
保持 时 间 复 杂 性 为 0(1) ， 我 们 可 以 妥协 的 一 件 事 就 是 准确 性 。 如 果 我 们 不 保证 返回 最 准确 的 
数字 ， 我 们 可 以 使 用 更 少 的 空间 。 


我 们 不 追踪 过 去 一 分 钟 的 用 户 ， 只 追踪 过 去 一 秒 的 用 户 。 由 此 ， 我 们 确切 知道 最 后 一 秒 有 多 
少 访客 。 为 了 获得 过 去 一 分 钟 的 访客 数量 ， 我 们 维护 了 60 个 元 素 的 队列 /链表 ， 代 表 过 去 的 
60 秒 。 每 个 元 素 都 存储 那 一 秒 的 访客 数量 。 所 以 ， 每 一 秒 钟 ， 我 们 从 列表 中 删除 最 后 一 个 

(了 最早 的 ) 元 素 ， 并 添加 一 个 新 的 ， 过 去 一 秒 的 访客 数量 。 过 去 一 分 钟 的 访客 人 数 是 60 个 元 
素 的 总 和 。 


分 钟 数 可 以 按照 过 去 一 秒 的 请 求 来 计算 。 而 且 你 可 以 通过 调整 单位 来 控制 准确 度 和 空间 之 间 
的 权衡 。 你 可 以 保存 过 去 量 秒 钟 的 用 户 ， 并 在 列表 中 有 30 个 元 素 。 


并 发 请 求 如 何 ? 

在 生产 系统 中 ， 并 发 是 人 们 面临 的 最 常见 的 问题 。 如 果 可 能 存在 多 个 用 户 同时 访问 网 站 ， 以 
前 的 方法 是 否 仍 然 有 效 ? 

部 分 。 人 
最 初 更 新 列表 的 请 求 可 能 不 会 最 终 包 含 在 内 。 


最 常见 的 解决 方案 是 使 用 锁 来 保护 列表 。 每 当 有 人 想 要 更 新 列表 (通过 添加 新 元 素 或 删除 尾 
部 ) ， 对 列表 上 锁 。 操作 完成 后 ， 对 列表 解锁 。 


ee 不 是 一 个 问题 时 ， 这 个 作品 相当 好 。 在 某 些 时 候 上 锁 可 能 开销 很 
， 并且 当 并 发 请 求 过 多 时 ， 这 个 锁 可 能 会 阻塞 系统 并 成 为 性 能 瓶颈 。 


分 布 式 计数 器 


当 单 台 计算 机 流量 过 多 ， 性 能 成 为 问题 时 ， 现 在 是 考虑 分 布 式 解决 方案 的 最 佳 时 机 。 分 布 式 
系统 通过 将 系统 扩展 到 多 个 节点 ， 显 着 减轻 单个 机 器 的 负担 ， 但 是 同时 增加 了 复杂 性 。 


假设 我 们 将 访问 请 求 平 均 分 配给 多 台 机 器 。 我 想 首 先 强调 平均 分 配 的 重要 性 。 
器 比 其 他 机 器 获得 更 多 的 流量 ， 那 么 系统 不 能 完全 利用 ， 在 设计 系统 时 考虑 到 这 一 点 非常 

要 。 在 我 们 的 例子 中 ， 我 们 可 以 获取 用 户 电 子 邮件 的 散 列 ， 并 通过 散 列 分 配 〈 直 接 使 用 

邮件 不 是 一 个 好 主意 ， 因 为 有 些 字母 可 能 比 其 他 字母 更 频繁 出 现 ) 。 


为 了 统计 这 个 数量 ， 每 人 台 机 器 独立 工作 ， 从 过 去 的 一 分 钟 开始 统计 自己 的 用 户 。 当 我 们 请 求 
全 局 数量 时 ， 我 们 只 需要 把 所 有 的 计数 器 加 在 一 起 


这 疆 
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CR 


我 喜欢 这 个 问题 的 原因 之 一 是 ， 最 简单 的 解决 方案 可 能 是 一 个 编 成 问题 ， 并 且 为 了 解决 并 发 
性 和 可 扩展 性 问题 ， 这 成 为 一 个 系统 设计 问题 。 而 且 ， 这 个 问题 本 身 在 生产 系统 中 有 广泛 的 
用 途 。 

ep tt mi adel ni 权衡 是 
一 个 很 好 的 概念 ， 当 我 们 试图 优化 一 个 地 方 时 ， 想 想 还 有 什么 应 该 牺牲 的 东西 。 通 过 这 样 的 
思考 ， 它 为 你 打开 了 很 多 思路 。 


顺便 提 一 下 ， 如 果 你 想得到 资深 的 面试 官 的 更 多 指导 ， 可 以 查看 Gainlo ， 以 便 与 Google， 
Facebook 等 公司 的 工程 师 进 行 模拟 面试 。 


设计 Youtube (第 一 部 分 ) 


原文 : How to Design Youtube (Part |) 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 

自豪 地 采用 谷歌 翻译 


系统 设计 面试 问题 最 常见 的 类 型 之 一 ， 是 设计 一 个 现 有 的 流行 系统 。 例如 ， 过 去 我 们 已 经 讨 


论 过 如 何 设 计 Twitter， 设 计 Facebook 聊天 功能 等 等 。 


部 分 原因 是 这 个 问题 通常 足够 普遍 ， 所 以 有 很 多 领域 需要 讨论 。 另外 ， 如 果 候选 人 一 般 有 好 
奇 心 ， 他 们 更 有 可 能 去 探索 现 有 产品 的 设计 。 


所 以 这 个 星期 ， 我 们 将 讨论 如 何 设 计 Youtube。 这 是 一 个 广泛 的 问题 ， 因 为 构建 Youtube 就 
像 是 从 头 构建 一 座 摩天 大 楼 ， 有 太 多 东西 需要 考虑 。 因此 ， 我 们 将 从 面试 官 的 角度 ， 涵 盖 大 
部 分 “主要 "组件 ， 包 括 数 据 库 模型 ， 视 频 /图 像 存 储 ， 可 扩展 性 ， 推 荐 性 ， 安 全 性 等 。 


概述 


面 对 这 个 问题 ， 大 多 数 人 的 脑子 都 是 空 的 ， 因 为 这 个 问题 太 广 泛 了 ， 他 们 不 知道 从 哪里 开 
始 。 仅 仅 是 存储 本 身 并 不 重要 ， 因 为 无 颖 地 向 数 亿 用 户 提供 视频 /图 像 是 非常 复杂 的 。 


《系统 设计 面试 之 前 需要 知道 的 八 件 事 》 中 建议 ， 最 好 先 从 设计 的 概要 描述 入 手 ， 然 后 再 深 
入 探讨 所 有 细节 。 对 于 这 样 的 问题 ， 尤 其 如 此 ， 有 无 数 的 事情 要 考虑 ， 你 永远 无 法 洪 清 一 
切 。 


基本 上 ， 我 们 可 以 将 系统 简化 为 几 个 主要 组 件 ， 如 下 所 示 : 


e 存储 。 你 如 何 设计 数据 库 纲 要 ? 使 用 什么 数据 库 ? 视频 和 图 像 可 以 是 一 个 子 话题 ， 因 为 
它们 的 存储 非常 特殊 。 

e@ 可 扩展 性 。 当 你 有 了 数 百 万 甚至 数 十 亿 用 户 时 ， 你 如 何 扩展 存储 和 整个 系统 ? 这 可 能 是 
一 个 非常 复杂 的 问题 ， 但 我 们 至 少 可 以 讨论 一 些 概要 思想 。 

e。 网 络 服务 器 。 最 常见 的 结构 是 前 端 〈 移 动 和 网 页 ) 与 Web 服务 器 通信 ，Web 服务 器 处 理 
用 户 认证 ， 会 话 ， 获 取 和 更 新 用 户 数据 等 逻辑 。 然 后 服务 器 连接 到 多 个 后 端 ， 如 视频 存 
储 ， 推 荐 服务 器 等 等 。 

e。 缓存 是 另 一 个 重要 组 件 。 我 们 之 前 已 经 详细 讨论 过 缓存 ， 但 是 这 里 还 是 有 一 些 区 别 。 我 
们 需要 多 层 缓存 ， 像 Web 服务 器 ， 视 频 服务 器 等 。 

e 还 有 推荐 系统 ， 安 全 系统 等 其 他 重要 组 件 。 正 如 你 所 看 到 的 ， 每 个 功能 都 可 以 作为 一 个 
独立 的 面试 问题 。 


CY 


存储 和 数据 模型 


如 果 你 正在 使 用 像 MySQL 这 样 的 关系 数据 库 ， 那 么 设计 数据 模型 可 能 很 简单 。 实 际 上 ， 
Youtube 从 一 开始 就 使 用 MySQL 作为 主 数据 库 ， 并 且 工 作 得 很 好 。 


首先 ， 我 们 需要 定义 用 户 模型 ， 它 可 以 存储 在 一 个 表 中 ， 包 括 电 子 邮件 ， 名 称 ， 注 册 数 据 ， 
配置 文件 信息 等 等 。 另 一 种 常见 的 方法 是 将 用 户 数据 保存 在 两 个 表 中 - 一 个 用 于 与 电子 邮件 ， 
密码 ， 姓 名 ， 注 册 日 期 等 身份 验证 相关 的 信息 ， 另 一 个 用 于 附加 的 个 人 信息 ， 如 地 址 ， 年 龄 


大 入 
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第 二 个 主要 模型 是 视频 。 一 个 视频 包含 了 大 量 的 信息 ， 包 括 元 数据 (标题 ， 描 述 ， 大 小 
等 )， 视 频 文件 ， 评 论 ， 查 看 次 数 ， 计 数 等 等 。 显 然 ， 基 本 的 视频 信息 应 该 保存 在 不 同 的 表 
格 中 ， 这 样 我 们 才能 有 视频 表 。 


作者 与 视频 的 关系 将 是 另 一 张 表 ， 将 用 户 ID 映射 到 视频 ID。 用 户 与 视频 的 喜欢 关系 也 可 以 是 
一 个 单独 的 表格 。 这 里 的 想法 是 数据 库 规 范 化 - 组 织 列 和 表 来 减少 数据 宛 余 并 提高 数据 完整 
小 0° 


视频 和 图 像 存储 


建议 将 大 型 静态 文件 (如 视频 和 图 像 ) 分 开 存 储 ， 因 为 这 样 性 能 更 好 ， 并 且 更 容易 组 织 和 扩 
展 。Youtube 有 更 多 的 图 像 而 不 是 视频 ， 这 是 非常 不 直观 的 。 想 得 一 下 ， 每 个 视频 在 不 同 屏 
幕 上 都 有 不 同 大 小 的 缩 略 图 ， 其 结果 是 比 视 频 多 出 四 倍 的 图 片 。 所 以 我 们 不 应 该 忽视 图 像 存 
储 。 

最 常用 的 方法 之 一 是 使 用 CDN (内 容 交 付 网 络 ) 。 简 而 言 之 ，CDN 是 在 多 个 数据 中 心 部 署 的 
全 球 分 布 式 代理 服务 器 网 络 。CDN 的 目标 是 向 最 终 用 户 提供 高 可 用 性 和 高 性 能 的 内 容 。 这 是 
一 种 第 三 方 网 络 ， 许 多 公司 正在 CDN 上 存储 静态 文件 。 

使 用 CDN 的 最 大 好 处 是 ，CDN 可 以 在 多 个 地 方 复制 内 容 ， 因 此 内 容 离 用 户 更 近 ， 跳 数 更 
少 ， 内 容 将 通过 更 友好 的 网 络 运 行 。 另 外 ，CDN 负责 处 理 可 扩展 性 等 问题 ， 你 只 需要 为 服务 
付费 。 


流行 VS 长 尾 视 频 


如 果 你 认为 CDN 是 最 终 的 解决 方案 ， 那 么 你 是 完全 错误 的 。 考 虑 到 今天 YouTube 的 视频 数 
量 (819,417,600 小 时 的 视频 ) ， 将 它们 全 部 放 在 CDN 上 将 是 非常 昂贵 的 ， 特 别 是 大 多 数 视 
频 是 长 尾 的 ， 这 些 视频 每 天 只 有 1-20 次 观看 。 


然而 ， 互 联网 最 有 趣 的 事情 之 一 通常 是 那些 吸引 了 大 多 数 用 户 的 长 尾 内容 。 原 因 很 简单 - 那些 
流行 的 内 容 随 处 可 见 ， 只 有 长 尾 的 东西 才能 使 产品 变 得 特别 。 


回 到 存储 问题 。 一 个 简单 的 方法 是 ， 在 CDN 中 托管 流行 的 视频 ， 而 不 太 流 行 的 视频 则 按照 位 
置 存储 在 我 们 自己 的 服务 器 中 。 这 有 两 个 好 处 : 
e 流行 的 视频 由 不 同 地 点 的 大 量 观众 观看 ， 这 是 CDN 擅长 的 。 它 在 多 个 地 方 复制 内 容 ， 以 


便 更 可 能 从 接近 和 友好 的 网 络 提供 视频 。 
。 长 尾 视频 通常 由 特定 的 人 群 消费 ， 如 果 可 以 预先 预测 ， 则 可 以 高 效 地 存储 这 些 内 容 。 


、 


这 结 


/ 
对 于 “如 何 设计 Youtube” 这 个 问题 ， 我 们 想 讨论 的 话题 太 多 了 。 在 下 一 篇 文章 中 ， 我 们 将 更 多 
讨论 可 伸缩 性 ， 缓 存 ， 服 务 器 ， 安 全 性 等 等 。 


顺便 提 一 下 ， 如 果 你 想得到 资深 的 面试 官 的 更 多 指导 ， 可 以 查看 Gainlo， 以 便 与 Google， 
Facebook 等 公司 的 工程 师 进 行 模拟 面试 。 


设计 Youtube (第 二 部 分 ) 


原文 : How to Design Youtube (Part ||) 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 

自豪 地 采用 谷歌 翻译 


这 是 如 何 设计 YouTube 的 第 二 篇 文章 。 我 们 将 继续 我 们 的 讨论 ， 如 果 你 还 没有 阅读 第 一 篇 ， 
请 查看 一 下 。 


在 上 一 篇 文章 中 ， 我 们 主要 讨论 了 数据 库 和 存储 。 本 周 ， 我 们 将 讨论 更 多 主题 ， 包 括 可 扩展 
性 ，Web 服务 器 ， 缓 存 和 安全 性 。 


扩展 数据 库 


一 旦 产品 拥有 数 百 万 其 至 数 十 亿 用 户 ， 就 有 很 多 问题 需要 解决 。 可 扩展 性 是 要 解决 的 最 重要 
的 问题 之 一 。 基本 上 ， 将 所 有 数据 存储 到 单个 数据 库 不 仅 效率 低下 ， 而 且 不 可 行 。 那 么 如 何 
扩展 Youtube 的 数据 库 呢 ? 


扩展 数据 库 时 ， 我 们 可 以 遵循 很 多 一 般 规则 。 最 常用 的 方法 是 按 需 扩展 。 换 和 句 话 说 ， 不 建议 
第 一 天 就 进行 数据 库 的 分 区 工作 ， 因 为 几乎 可 以 肯定 的 是 ， 在 真正 需要 扩展 的 时 候 ， 整 个 基 
础 架构 和 产品 都 发 生 了 巨大 的 变化 。 


所 以 这 个 想法 起 始 于 一 台 服 务 器 。 稍 后 ， 你 可 以 演化 为 一 个 主机 和 多 个 读 取 从 机 ( 主 / 从 模 
型 ) 。 而 且 在 某 些 时 候 ， 你 将 不 得 不 对 数据 库 进 行 分 区 ， 并 采用 分 片 的 方法 。 例 如 ， 你 可 以 
按 用 户 的 位 置 拆 分 数据 库 ， 并 在 请 求 到 达 时 ， 将 请 求 路 由 到 相应 的 数据 库 。 

对 于 Youtube， 我 们 可 以 进一步 优化 它 。 YouTube 的 最 重要 的 特点 是 视频 。 因 此 ， 我 们 可 以 
通过 将 数据 分 成 两 个 集群 来 优先 化 流量 : 视频 集群 和 通用 集群 。 我 们 可 以 为 视频 群集 提供 大 
量 资源 ， 其 他 社交 网 络 功能 将 被 路 由 到 功能 较 弱 的 群集 。 这 里 更 一 般 的 想法 是 ， 在 解决 可 扩 
展 性 问题 时 ， 应 该 首先 确定 瓶颈 ， 然 后 优化 它 。 在 这 种 情况 下 ， 瓶 颈 就 是 观看 视频 。 


缓存 


绥 存 这 个 主题 我 不 会 多 谈 ， 因 为 我 们 在 之 前 的 文章 《设计 绥 存 系统 》 中 已 经 详细 介绍 了 。 但 
是 有 几 点 值得 在 这 里 提 及 。 


首先 ， 在 谈 到 缓存 时 ， 大 多 数 人 的 反应 是 服务 器 缓存 。 实 际 上 ， 前 端 缓存 同样 重要 。 cea 
想 让 你 的 网 站 更 快 ， 并 且 延 迟 较 低 ， 你 不 能 避免 为 前 端 设置 缓存 。 构 建 网 站 界面 时 ， 这 是 一 
种 非常 常见 的 技术 。 


其 次 ， 正 如 我 们 在 上 一 篇 文章 中 简要 讨论 的 那样 ， 缓 存在 服务 视频 方面 并 没有 太 多 的 好 处 。 
这 主要 是 因为 Youtube 的 大 部 分 用 例 来 自 这 些 长 尾 视频 ， 并 且 为 所 有 视频 设置 缓存 开销 很 
大 。 所 以 这 里 的 一 般 想 法 是 ， 如 果 你 正在 构建 这 样 的 长 尾 产 品 ， 不 要 在 缓存 上 下 注 太 多 。 


安全 


在 Youtube 上 有 很 多 可 以 讨论 安全 饼 和 事情 育 。 我 想 在 这 里 介绍 一 个 有 趣 的 话题 观看 的 黑客 行 
为 。 在 每 个 Youtube 视频 下 ， 它 显示 查看 计数 ， 这 表明 视频 是 多 么 受 欢 迎 。 人 们 用 可 以 编程 
方式 发 送 请 求 来 破解 观看 次 数 ， 那 么 我 们 应 该 如 何 保 护 它 呢 ? 


最 直接 的 方法 是 ， 如 果 一 个 特定 的 IP 发 出 太 多 的 请 求 ， 只 是 阻止 它 。 或 者 我 们 甚至 可 以 限制 
每 个 IP 的 观看 次 数 。 系 统 还 可 以 检查 浏览 器 代理 和 用 户 过 去 的 历史 记录 等 信息 ， 这 可 能 会 阻 
止 很 多 黑客 行为 。 


人 们 可 以 使 用 像 Tor 这 样 的 服务 隐藏 |P， 像 Mechanical Turk 这 样 的 网 站 可 以 让 用 户 以 很 低 
的 成 本 点 击 视频 。 但 是 ， 对 系统 进行 黑客 攻击 比 大 多 数 人 想象 的 要 困难 得 多 。 


例如 ， 观 看 次 数 较 多 但 参与 程度 较 低 的 视频 非常 可 疑 。 有 了 大 量 的 Youtube 视频 ， 提 取 监 实 
的 观看 数量 的 模式 并 不 困难 。 为 了 破解 系统 ， 你 需要 提供 合理 的 参与 程度 ， 比 如 分 享 次 数 ， 
评论 次 数 ， 观 看 时 间 等 等 ， 而 且 几 乎 不 可 能 伪造 所 有 这 些 。 


Web 服务 器 


很 多 人 忽略 了 Web 服 务 器 ， 因 为 在 系统 设计 方面 ， 它 没有 太 多 讨论 的 东西 。 但 是 对 于 像 
Youtube 这 样 的 大 型 系统 ， 还 有 很 多 事情 需要 考虑 。 我 想 分 享 一 些 Youtube 所 使 用 的 技术 。 


e。 Youtube 服务 器 最 初 是 用 Python 构建 的 ， 这 允许 快速 灵活 的 开发 和 部 署 。 你 可 能 会 注意 
到 许多 初创 公司 选择 Python 作为 他 们 的 服务 器 语言 ， 因 为 迭代 速度 要 快 得 多 。 

。 Python 有 时 会 遇 到 性 能 问题 ， 但 是 有 很 多 C 的 扩展 可 以 让 你 优化 关键 部 分 ， 这 正 是 
Youtube 的 工作 原理 。 

e 要 扩展 Web 服务 器 ， 你 可 以 简单 地 拥有 多 个 副本 ， 并 在 其 之 上 构建 一 个 负载 平衡 器 。 

e 服务 器 主要 负责 处 理 用 户 请 求 并 返回 响应 。 它 应 该 有 几 个 重要 的 逻辑 ， 其 它 东西 都 应 该 
在 不 同 的 服务 器 上 构建 。 例 如 ， 建 议 应 该 是 一 个 独立 的 组 件 ， 让 Python 服务 器 从 中 获取 
数据 。 


在 这 篇 文章 中 ， 我 们 试图 涵盖 尽 可 能 多 的 不 同 主题 ， 每 个 主题 都 可 以 在 单独 的 文章 中 深入 讨 
论 。 以 后 还 有 很 多 事情 要 谈 ， 但 读者 可 以 考虑 一 下 ， 并 在 评论 中 讨论 。 

例如 ，YouTube 的 推荐 是 一 个 非常 大 的 话题 ， 它 极 大 改善 了 用 户 参 与 程度 。 你 将 如 何 构建 推 
荐 系统 ?另外 ， 你 如 何 识别 当天 的 热门 视频 并 向 相关 观众 推荐 ? 


顺便 提 一 下 ， 如 果 你 想得到 资深 的 面试 官 的 更 多 指导 ， 可 以 查看 Gainlo， 以 便 与 Google， 
Facebook 等 公司 的 工程 师 进 行 模拟 面试 。 


